欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟亞研提出VL-BERT,現(xiàn)取得了當(dāng)前單模型的最好效果

JqWP_youuav ? 來源:陳年麗 ? 2019-09-03 15:04 ? 次閱讀

機(jī)器之心發(fā)布

來自中科大、微軟亞研院的研究者們提出了一種新型的通用視覺-語言預(yù)訓(xùn)練模型(Visual-Linguistic BERT,簡稱 VL-BERT),該模型采用簡單而強(qiáng)大的 Transformer 模型作為主干網(wǎng)絡(luò),并將其輸入擴(kuò)展為同時(shí)包含視覺與語言輸入的多模態(tài)形式,適用于絕大多數(shù)視覺-語言下游任務(wù)。

為了讓 VL-BERT 模型利用更為通用的特征表示,作者在大規(guī)模圖片描述生成數(shù)據(jù)集 ConceptualCaptions 中進(jìn)行 VL-BERT 的預(yù)訓(xùn)練,實(shí)驗(yàn)證明此預(yù)訓(xùn)練過程可以顯著提高下游的視覺-語言任務(wù)的效果,包含視覺常識推理、視覺問答與引用表達(dá)式理解等。值得一提的是,在視覺常識推理排行榜中,VL-BERT 取得了當(dāng)前單模型的最好效果。

適用于下游任務(wù)的通用特征表示預(yù)訓(xùn)練是深度網(wǎng)絡(luò)成功的標(biāo)志之一。在計(jì)算機(jī)視覺領(lǐng)域,深度網(wǎng)絡(luò)在 ImageNet 數(shù)據(jù)集進(jìn)行圖像分類的預(yù)訓(xùn)練過程,被發(fā)現(xiàn)可廣泛提高多種圖像識別任務(wù)的效果。在自然語言處理領(lǐng)域中,Transformer 模型在大規(guī)模語料庫中使用語言模型進(jìn)行預(yù)訓(xùn)練的過程,也被證明可廣泛提高多種自然語言處理任務(wù)的效果。

但對于計(jì)算機(jī)視覺和自然語言處理領(lǐng)域交叉的任務(wù),例如圖像標(biāo)題生成、視覺問答、視覺常識推理等,缺少這種預(yù)訓(xùn)練的通用多模態(tài)特征表示。

一般來說,之前的視覺-語言模型分別使用計(jì)算機(jī)視覺或自然語言處理領(lǐng)域中的預(yù)訓(xùn)練模型進(jìn)行初始化,但如果目標(biāo)任務(wù)數(shù)據(jù)量不足,模型容易過擬合從而損失性能。并且對于不同的視覺-語言任務(wù),其網(wǎng)絡(luò)架構(gòu)一般是經(jīng)過特殊設(shè)計(jì)的,由此很難通過視覺-語言聯(lián)合預(yù)訓(xùn)練的過程幫助下游任務(wù)。

由此,在本文中,提出了一種可廣泛應(yīng)用于視覺-語言任務(wù)的預(yù)訓(xùn)練通用特征表示,稱為 Visual-LinguisitcBERT,簡稱 VL-BERT,其架構(gòu)如下圖所示:

VL-BERT 的主干網(wǎng)絡(luò)使用 TransformerAttention 模塊,并將視覺與語言嵌入特征作為輸入,其中輸入的每個(gè)元素是來自句子中的單詞、或圖像中的感興趣區(qū)域(Region of Interests,簡稱 RoIs)。在模型訓(xùn)練的過程中,每個(gè)元素均可以根據(jù)其內(nèi)容、位置、類別等信息自適應(yīng)地聚合來自所有其他元素的信息。在堆疊多層 TransformerAttention 模塊后,其特征表示即具有更為豐富的聚合與對齊視覺和語言線索的能力。

為了更好地建模通用的視覺-語言表示,在大規(guī)模視覺-語言語料庫中對 VL-BERT 進(jìn)行了預(yù)訓(xùn)練。采用的預(yù)訓(xùn)練數(shù)據(jù)集為圖像標(biāo)題生成數(shù)據(jù)集,Conceptual Captions,其中包含了大約 330 萬個(gè)圖像標(biāo)題對。

VL-BERT 的預(yù)訓(xùn)練主要采用三個(gè)任務(wù):a) 屏蔽語言模型(Masked Language Modeling),即隨機(jī)屏蔽掉語句中的一些詞,并預(yù)測當(dāng)前位置的詞是什么;b) 屏蔽 RoI 分類(MaskedRoIClassification),即隨機(jī)屏蔽掉視覺輸入中的一些 RoIs,并預(yù)測此空間位置對應(yīng) RoI 的所屬類別;c) 圖像標(biāo)題關(guān)聯(lián)預(yù)測(Sentence-Image Relationship Prediction),即預(yù)測圖像與標(biāo)題是否屬于同一對。

在預(yù)訓(xùn)練結(jié)束后,使用微調(diào)來進(jìn)行下游任務(wù)的訓(xùn)練。本文中主要在三個(gè)視覺-語言下游任務(wù)中進(jìn)行微調(diào),即視覺常識推理(VisualCommonsenseReasoning)、視覺問答(VisualQuestionAnswering)與引用表達(dá)式理解(ReferringExpressionComprehension),下面將分別介紹。

視覺常識推理任務(wù)即給定圖片與相關(guān)問題,機(jī)器不僅需要回答問題,還需要提供理由來證明答案的正確性。此任務(wù)(Q-》AR)被分解為兩個(gè)子任務(wù),即視覺問答(Q-》A,給定圖片與問題,輸出正確答案),以及視覺推理(QA-》R,給定圖片、問題與答案,輸出正確的理由)。

下面以視覺問答子任務(wù)為例,此任務(wù)的輸入為問題、答案與圖像的 RoIs,并預(yù)測此答案是否為正確答案。除此之外,作者發(fā)現(xiàn)微調(diào)時(shí)增加與預(yù)訓(xùn)練類似的 RoI 分類損失也會進(jìn)一步提升性能,如下:

視覺問答任務(wù)即給定圖片,回答與圖片輸入相關(guān)的問題。由此模型的輸入即為問題與圖像,基本元素為單詞或 RoI,最終對答案進(jìn)行預(yù)測,如下:

引用表達(dá)式理解任務(wù)是使用給定的引用表達(dá)式來定位圖像中的相關(guān)對象,由此輸入為查詢(引用表達(dá)式)與圖片中的 RoIs,并預(yù)測哪個(gè) RoI 為查詢輸入的引用,如下:

下面將介紹論文中的一些主要實(shí)驗(yàn)結(jié)果:

a)在視覺常識推理(Visual Commonsense Reasoning)任務(wù)中,與當(dāng)前最好方法的結(jié)果比較如下:

b)在視覺問答(Visual Question Answering)任務(wù)中,與當(dāng)前最好方法的結(jié)果比較如下:

c)在引用表達(dá)式理解(Referring Expression Comprehension)任務(wù)中,與當(dāng)前最好方法的結(jié)果比較如下:

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6634

    瀏覽量

    104536
  • 機(jī)器
    +關(guān)注

    關(guān)注

    0

    文章

    784

    瀏覽量

    40836

原文標(biāo)題:牛人發(fā)明無人機(jī)自動建房,空中噴“水泥”,網(wǎng)友:建筑工人要失業(yè)

文章出處:【微信號:youuav,微信公眾號:無人機(jī)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    大連理工提出基于Wasserstein距離(WD)的知識蒸餾方法

    的機(jī)制,應(yīng)用于中間層蒸餾時(shí)存在問題,其無法處理不重疊的分布且無法感知底層流形的幾何結(jié)構(gòu)。 為了解決這些問題,大連理工大學(xué)的研究人員提出了一種基于 Wasserstein 距離(WD)的知識蒸餾方法。所提出方法在圖像分類和目標(biāo)檢測任務(wù)上均
    的頭像 發(fā)表于 01-21 09:45 ?137次閱讀

    基于移動自回歸的時(shí)序擴(kuò)散預(yù)測模型

    回歸取得了比傳統(tǒng)基于噪聲的擴(kuò)散模型更好的生成效果,并且獲得了人工智能頂級會議 NeurIPS 2024 的 best paper。 然而在時(shí)間序列預(yù)測領(lǐng)域,
    的頭像 發(fā)表于 01-03 14:05 ?206次閱讀
    基于移動自回歸的時(shí)序擴(kuò)散預(yù)測<b class='flag-5'>模型</b>

    微軟科技2025年的新年祝福

    2024即將畫上句號,在過去的一年里,很微軟 AI持續(xù)創(chuàng)新和突破,并取得了矚目的成就。
    的頭像 發(fā)表于 01-02 09:09 ?278次閱讀

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型

    取得了令人矚目的效果。 閱讀感悟 從傳統(tǒng)的手動編程到借助大模型實(shí)現(xiàn)智能化、自主化,從單一模態(tài)的交互到多模態(tài)信息的深度融合,再到擴(kuò)散模型的應(yīng)用,機(jī)器人控制技術(shù)正在以驚人的速度進(jìn)化。這不
    發(fā)表于 12-29 23:04

    通義千問發(fā)布第二代視覺語言模型Qwen2-VL

    。Qwen2-VL系列模型在多模態(tài)處理領(lǐng)域取得了突破性進(jìn)展,于多個(gè)權(quán)威測評中嶄露頭角,刷新了多項(xiàng)最佳成績記錄,展現(xiàn)出強(qiáng)大的視覺理解與語言交互能力。
    的頭像 發(fā)表于 09-03 16:31 ?628次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建T
    的頭像 發(fā)表于 07-02 11:41 ?1895次閱讀

    微軟推出首個(gè)基于AI的天氣預(yù)報(bào)系統(tǒng)

    微軟近日發(fā)布了其首個(gè)大型大氣基礎(chǔ)模型Aurora,該模型在天氣預(yù)測領(lǐng)域開啟了全新的高精度時(shí)代。Aurora的發(fā)布標(biāo)志著微軟在人工智能和氣象科學(xué)領(lǐng)域的深度融合
    的頭像 發(fā)表于 06-07 15:44 ?565次閱讀

    德:下半年將推出50μm以下無襯底芯片Micro產(chǎn)品

    近日,利德在接受行業(yè)機(jī)構(gòu)調(diào)研時(shí),再次確認(rèn)了Micro LED作為公司核心戰(zhàn)略產(chǎn)品的地位。利德在Micro LED領(lǐng)域已經(jīng)取得了顯著的技術(shù)突破和市場應(yīng)用。
    的頭像 發(fā)表于 06-06 10:20 ?780次閱讀

    谷歌提出大規(guī)模ICL方法

    谷歌DeepMind團(tuán)隊(duì)近日取得了一項(xiàng)突破性的研究成果。他們提出了強(qiáng)化和無監(jiān)督兩種新型的ICL(In-Context Learning)學(xué)習(xí)方法,這一創(chuàng)新技術(shù)能夠在多個(gè)領(lǐng)域顯著提升模型的性能。
    的頭像 發(fā)表于 05-14 14:17 ?411次閱讀

    微軟將推出自AI大模型

    微軟正在緊鑼密鼓地訓(xùn)練一款全新的自人工智能大模型——“MAI-1”。據(jù)悉,這款模型規(guī)模龐大,足以與谷歌的Gemini和OpenAI的ChatGPT相媲美。
    的頭像 發(fā)表于 05-13 11:30 ?707次閱讀

    微軟5000億參數(shù)大模型曝光

    微軟近日曝光了其內(nèi)部正在秘密研發(fā)的巨型AI模型——MAl-1,這款模型擁有驚人的5000億參數(shù)。據(jù)微軟首席技術(shù)官Kevin Scott確認(rèn),MAl-1的研發(fā)工作確實(shí)在穩(wěn)步推進(jìn)中,并且該
    的頭像 發(fā)表于 05-08 09:56 ?497次閱讀

    微軟AI大模型即將問世

    微軟正悄然醞釀一項(xiàng)重大技術(shù)突破,據(jù)內(nèi)部消息人士透露,公司正全力訓(xùn)練一款名為“MAI-1”的自人工智能大模型。這款模型備受期待,其規(guī)模龐大,足以與谷歌的Gemini和OpenAI的Ch
    的頭像 發(fā)表于 05-07 14:46 ?535次閱讀

    微軟MSN天氣服務(wù)引入全新AI模型

    微軟在天氣預(yù)測領(lǐng)域取得了突破性的進(jìn)展,為MSN天氣服務(wù)引入了全新的AI預(yù)測模型。該模型微軟Start團(tuán)隊(duì)精心研發(fā),并基于他們在arXiv上
    的頭像 發(fā)表于 05-07 09:25 ?622次閱讀

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    之后,成為文本建模領(lǐng)域的熱門架構(gòu)。不僅如此,它還對自然語言處理領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響?;赥ransformer的預(yù)訓(xùn)練模型,如GPT系列和BERT系列,已在多種任務(wù)上取得了卓越的成績。目前的大型語言
    發(fā)表于 05-05 12:17

    拐點(diǎn)已現(xiàn)?智能駕駛或?qū)⒅厮芷嚠a(chǎn)業(yè)格局

    隨著GPT大模型和FSD端到端的出現(xiàn),基于“數(shù)據(jù)-算力”的方法拋棄了傳統(tǒng)的算法和編程CODING,取得了巨大的進(jìn)展。通過Scaling law數(shù)據(jù)規(guī)模(百萬輛車視頻數(shù)據(jù)),終于實(shí)現(xiàn)了像人一樣駕駛的效果
    發(fā)表于 04-08 10:01 ?585次閱讀
    拐點(diǎn)已<b class='flag-5'>現(xiàn)</b>?智能駕駛或?qū)⒅厮芷嚠a(chǎn)業(yè)格局