久久久精品欧美一区二区三区欧美精品,精品人妻无码一区二区三区电影

導(dǎo)讀

隨著Transformer在視覺中的崛起，Transformer在多模態(tài)中應(yīng)用也是合情合理的事情，甚至以后可能會(huì)有更多的類似的paper。先來解釋一下什么多模態(tài)，模態(tài)譯作modality，多模態(tài)譯作multimodel。多模態(tài)學(xué)習(xí)主要有一下幾個(gè)方向：表征、轉(zhuǎn)化、對(duì)齊、融合和協(xié)同學(xué)習(xí)。人就是生活在一個(gè)多模態(tài)的世界里面，文字、視覺、語言都是不同的模態(tài)，當(dāng)我們能夠同時(shí)從視覺、聽覺、嗅覺等等來識(shí)別當(dāng)前發(fā)生的事情，實(shí)際上我們就是在做了多模態(tài)的融合。而Transformer is All You Need這篇論文（從Attention is All You Need開始大家都成了標(biāo)題黨，X is All You Need）是屬于協(xié)同學(xué)習(xí)（Co-learning）的范疇，將多個(gè)不同的tasks一起訓(xùn)練，共享模型參數(shù)。

背景介紹

這篇論文出自Facebook AI Research，文章提出了UniT，Unified Transformer model，用一個(gè)Transformer模型去同時(shí)學(xué)習(xí)多個(gè)不同的tasks，甚至這些tasks的領(lǐng)域都可能不同，從目標(biāo)檢測(cè)到語言理解，一共訓(xùn)練了7個(gè)tasks8個(gè)datasets，但是各個(gè)beachmark上都取得了不錯(cuò)的成績(jī)。Transformer在各種不同的領(lǐng)域中都取得了極大的成功，例如NLP、images、video和audio，不僅在以上領(lǐng)域表現(xiàn)出色，甚至在一些vision-and-language reasoning的tasks上，比如VQA（visual question answering）也有很強(qiáng)的表現(xiàn)。但是現(xiàn)有的一些多模態(tài)的模型基本都是關(guān)注某一個(gè)領(lǐng)域的不同task或者就是用將近N倍的參數(shù)去處理N個(gè)不同的領(lǐng)域問題。在17年谷歌提出的《One Model To Learn Them All》［1］中也使用了Transformer encoder-decoder的架構(gòu)，但是不同的是，它對(duì)于每個(gè)task都需要一個(gè)與之對(duì)應(yīng)的decoder，如下圖。類似的還有MT-DNN［2］和VILBERT-MT［3］等等。

UniT： One transformer to learn them all

用單個(gè)模型去訓(xùn)練跨模態(tài)的任務(wù)，UniT包括對(duì)于不同的task對(duì)于的encoder，因?yàn)椴煌B(tài)的數(shù)據(jù)需要經(jīng)過處理才能放到同一個(gè)網(wǎng)絡(luò)，就和人獲得不同模態(tài)的信息需要不同的器官一樣。然后這些信息會(huì)經(jīng)過一個(gè)共享decoder，最后各個(gè)task會(huì)有對(duì)應(yīng)的簡(jiǎn)單的head進(jìn)行最后的輸出。UniT有兩種不同模態(tài)的輸入：圖像和文本。也就是說只需要兩個(gè)對(duì)應(yīng)的encoder就可以訓(xùn)練7種不同的任務(wù)，可以形象地比喻這個(gè)網(wǎng)絡(luò)有兩個(gè)不同的器官（Image encoder和Text encoder）。

Image encoder一些視覺相關(guān)的task，比如目標(biāo)檢測(cè)、視覺問答等都需要處理圖像，在UniT中，圖像先經(jīng)過一個(gè)卷積的backbone，然后再用transformer對(duì)特征進(jìn)行編碼，進(jìn)一步得到編碼后的向量。圖像的處理與DETR［4］類似。xv=B（I），xv是經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)B得到的特征圖，B采用了ResNet-50，并在C5中使用了空洞卷積。再用encoder Ev得到圖像編碼的向量，這里使用encoder進(jìn)行編碼時(shí)為了區(qū)別不同的task加入了task embedding以進(jìn)行區(qū)分，和IPT中的作法類似，因?yàn)椴煌膖ask它可能關(guān)注的點(diǎn)不一樣。

Text encoder對(duì)于文本的輸入，采用BERT來進(jìn)行編碼，BERT是一個(gè)在大規(guī)模語料庫上預(yù)訓(xùn)練好的模型。給定輸入的文本，和BERT處理一樣，先將文本編碼成tokens的序列{w1， · · · ， wS}，和image encoder一樣，還需要加入一個(gè)wtask來區(qū)分不同的task。在實(shí)現(xiàn)中，采用了embedding維度是768，12層的BERT。

Domain-agnostic UniT decoder領(lǐng)域不可知的解碼器，和image和text encoder不一樣的是encoder是針對(duì)某一特定領(lǐng)域的，但是encoder的輸入可以是來自與image encoder或者是text encoder，所以是領(lǐng)域不可知。對(duì)于純視覺、純文本和視覺文本混合的task，encoder的輸入是不一樣的，純視覺和純文本的task的情況下，decoder的輸入就是它們各自encoder的輸出，但是對(duì)于視覺文本的task，decoder的輸入是兩個(gè)encoder輸出的拼接，這很好理解，因?yàn)樾枰猇QA這種同時(shí)會(huì)有image和text的輸入。

Task-specific output heads每個(gè)task可能最后的輸出差別很大，因此最后使用對(duì)應(yīng)的prediction head來進(jìn)行最后的預(yù)測(cè)。對(duì)于檢測(cè)任務(wù)來說，最后decoder產(chǎn)生的每個(gè)向量都會(huì)produce一個(gè)輸出，輸出包括類別和bounding box。當(dāng)然，對(duì)于不同的task，decoder輸入的query是不同的。

Experiments

下圖是所用到的8個(gè)不同的數(shù)據(jù)集以及上面的測(cè)試結(jié)果，可以看到不同任務(wù)的區(qū)別還是很大的。

根據(jù)下圖的對(duì)比，其實(shí)UniT有些task離SOTA還是差的有點(diǎn)遠(yuǎn)，所以這個(gè)領(lǐng)域還是有很大的挖掘的空間的。

Conclusion

在這篇論文中，我們可以看到，Transformer確實(shí)是可以來處理不同的領(lǐng)域的，跨領(lǐng)域?qū)W習(xí)確實(shí)是個(gè)很大的難題，那么Transformer能否成為多模態(tài)領(lǐng)域發(fā)展的一個(gè)跳板呢？我們拭目以待。

Reference論文鏈接：https://arxiv.org/abs/2102.10772
編輯：lyn

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

視覺

視覺

+關(guān)注

關(guān)注
1

文章
147

瀏覽量
24027
paper

paper

+關(guān)注

關(guān)注
0

文章
7

瀏覽量
3739
Transformer

Transformer

+關(guān)注

關(guān)注
0

文章
146

瀏覽量
6052

原文標(biāo)題：Facebook提出UniT：Transformer is All You Need

文章出處：【微信號(hào)：gh_a204797f977b，微信公眾號(hào)：深度學(xué)習(xí)實(shí)戰(zhàn)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

2025年Next Token Prediction范式會(huì)統(tǒng)一多模態(tài)嗎

各種模態(tài)的信息（如圖像、視頻和音頻片段）分解為最小的單元序列（Token），以便 Transformer 結(jié)構(gòu)為基礎(chǔ)的 NTP 模型學(xué)習(xí)。 Tokenization 方法可以分為離散（

發(fā)表于 01-21 10:11 ?79次閱讀

2025年Next Token Prediction范式會(huì)統(tǒng)一<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嗎

體驗(yàn)MiniCPM-V 2.6 多模態(tài)能力

多模態(tài)組網(wǎng)

jf_23871869

發(fā)布于 :2025年01月20日 13:40:48

商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

剛剛，商湯科技日日新SenseNova多模態(tài)大模型，在權(quán)威綜合評(píng)測(cè)權(quán)威平臺(tái)OpenCompass的多模態(tài)評(píng)測(cè)中取得榜單第一。

發(fā)表于 12-20 10:39 ?363次閱讀

一文理解多模態(tài)大語言模型——下

/understanding-multimodal-llms ? 《一文理解多模態(tài)大語言模型 - 上》介紹了什么是多模態(tài)大語言

發(fā)表于 12-03 15:18 ?219次閱讀

一文理解<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大語言<b class='flag-5'>模型</b>——下

一文理解多模態(tài)大語言模型——上

/understanding-multimodal-llms 在過去幾個(gè)月中， OpenVINO? 架構(gòu)師 Yury閱讀了眾多有關(guān)多模態(tài)大語言模型的論文和博客，在此基礎(chǔ)上，推薦了一篇解讀多

發(fā)表于 12-02 18:29 ?478次閱讀

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進(jìn)行融合，通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)，實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來說

發(fā)表于 10-18 09:39 ?568次閱讀

云知聲山海多模態(tài)大模型UniGPT-mMed登頂MMMU測(cè)評(píng)榜首

近日，多模態(tài)人工智能模型基準(zhǔn)評(píng)測(cè)集MMMU更新榜單，云知聲山海多模態(tài)大模型UniGPT-mMed

發(fā)表于 10-12 14:09 ?346次閱讀

Meta發(fā)布多模態(tài)LLAMA 3.2人工智能模型

Meta Platforms近日宣布了一項(xiàng)重要技術(shù)突破，成功推出了多模態(tài)LLAMA 3.2人工智能模型。這一創(chuàng)新模型不僅能夠深度解析文本信息，還實(shí)現(xiàn)了對(duì)圖像內(nèi)容的精準(zhǔn)理解，標(biāo)志著Met

發(fā)表于 09-27 11:44 ?455次閱讀

云知聲推出山海多模態(tài)大模型

在人工智能技術(shù)的浩瀚星海中，多模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標(biāo)。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創(chuàng)新之姿，推出了其匠心獨(dú)運(yùn)的山海多模態(tài)大

發(fā)表于 08-27 15:20 ?441次閱讀

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

今天來學(xué)習(xí)大語言模型在自然語言理解方面的原理以及問答回復(fù)實(shí)現(xiàn)。主要是基于深度學(xué)習(xí)和自然語言處理技術(shù)。大語言模型涉及以下幾個(gè)過程：數(shù)據(jù)收集：大語言

發(fā)表于 08-02 11:03

依圖多模態(tài)大模型伙伴CTO精研班圓滿舉辦

大模型在不同行業(yè)領(lǐng)域的應(yīng)用前景;7月19日， “依圖科技多模態(tài)大模型伙伴CTO精研班”在杭州圓滿舉辦，讓更多的伙伴們深度體驗(yàn)了依圖多

發(fā)表于 07-23 15:16 ?473次閱讀

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

李未可科技多模態(tài) AI 大模型正式發(fā)布，積極推進(jìn) AI 在終端的場(chǎng)景應(yīng)用 ? 4月18日，2024中國(guó)生成式AI大會(huì)上李未可科技正式發(fā)布為眼鏡等未來終端定向優(yōu)化等自研WAKE-AI多

發(fā)表于 04-18 17:01 ?668次閱讀

AI機(jī)器人迎來多模態(tài)模型

配備 GR00T 模型的機(jī)器人由于需要“吸收消化”外界的多模態(tài)信息，還要快速完成理解、決策、行動(dòng)等一系列動(dòng)作，因此對(duì)于算力的需求是巨量的。

發(fā)表于 04-12 10:39 ?313次閱讀

蘋果發(fā)布300億參數(shù)MM1多模態(tài)大模型

近日，科技巨頭蘋果公司在一篇由多位專家共同撰寫的論文中，正式公布了其最新的多模態(tài)大模型研究成果——MM1。這款具有高達(dá)300億參數(shù)的多模態(tài)

發(fā)表于 03-19 11:19 ?960次閱讀

螞蟻集團(tuán)推出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense

近日，螞蟻集團(tuán)聯(lián)合武漢大學(xué)宣布成功研發(fā)出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense。這一創(chuàng)新模型由螞蟻集團(tuán)的AI創(chuàng)新研發(fā)部門NextEvo與武漢大學(xué)共同完成，是迄今為止國(guó)際上參數(shù)規(guī)模

發(fā)表于 03-04 11:22 ?890次閱讀

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

Transformer模型的多模態(tài)學(xué)習(xí)應(yīng)用

評(píng)論

2025年Next Token Prediction范式會(huì)統(tǒng)一多模態(tài)嗎

體驗(yàn)MiniCPM-V 2.6 多模態(tài)能力

商湯日日新多模態(tài)大模型權(quán)威評(píng)測(cè)第一

一文理解多模態(tài)大語言模型——下

一文理解多模態(tài)大語言模型——上

利用OpenVINO部署Qwen2多模態(tài)模型

云知聲山海多模態(tài)大模型UniGPT-mMed登頂MMMU測(cè)評(píng)榜首

Meta發(fā)布多模態(tài)LLAMA 3.2人工智能模型

云知聲推出山海多模態(tài)大模型

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

依圖多模態(tài)大模型伙伴CTO精研班圓滿舉辦

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

AI機(jī)器人迎來多模態(tài)模型

蘋果發(fā)布300億參數(shù)MM1多模態(tài)大模型

螞蟻集團(tuán)推出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense