導(dǎo)讀
通過(guò)語(yǔ)言給予智能體指示使其完成通用性的任務(wù)是人工智能領(lǐng)域的愿景之一。近年來(lái)有越來(lái)越多的學(xué)者試圖通過(guò)融合計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理領(lǐng)域的相關(guān)技術(shù)以期實(shí)現(xiàn)此目標(biāo)。
近年來(lái),深度學(xué)習(xí)方法已經(jīng)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和自動(dòng)語(yǔ)音識(shí)別等各個(gè)領(lǐng)域得到了廣泛而深入的應(yīng)用,推動(dòng)了人臉識(shí)別、自動(dòng)駕駛和語(yǔ)音識(shí)別等一系列技術(shù)的發(fā)展和成熟。在很多目標(biāo)清晰、規(guī)則明確的任務(wù)比如物體檢測(cè)、目標(biāo)分割甚至是圍棋、象棋領(lǐng)域達(dá)到甚至超越了人類(lèi)的表現(xiàn)。但是當(dāng)前深度學(xué)習(xí)領(lǐng)域的研究往往局限在特定領(lǐng)域甚至特定的任務(wù)上,對(duì)于環(huán)境往往也有許多假設(shè)或是限制,與通用人工智能或是自主智能體的目標(biāo)相去甚遠(yuǎn)。
像圖像描述、視覺(jué)問(wèn)答和文本圖像生成等視覺(jué)與語(yǔ)言交叉領(lǐng)域的研究,往往缺乏對(duì)于環(huán)境的理解,而近年來(lái)陸續(xù)出現(xiàn)的將視覺(jué)和語(yǔ)言與行為聯(lián)系的研究,比如視覺(jué)語(yǔ)言導(dǎo)航、具身問(wèn)答和交互式問(wèn)答等,不但需要融合視覺(jué)與語(yǔ)言技術(shù),還需要智能體針對(duì)基于文本的問(wèn)題,在虛擬的空間環(huán)境中進(jìn)行路徑規(guī)劃和探索,相對(duì)而言是對(duì)視覺(jué)與語(yǔ)言的深度融合。
下面先來(lái)了解一下早期研究較多的幾個(gè)融合視覺(jué)與語(yǔ)言的任務(wù)。
圖像描述
最早被提出的問(wèn)題是圖像描述,即根據(jù)給定圖片自動(dòng)生成語(yǔ)言描述。初期解決方案分為圖像預(yù)處理、特征提取和文本生成三個(gè)模塊,比如圖像算子提取特征,SVM 檢測(cè)可能存在的目標(biāo),根據(jù)目標(biāo)屬性生成句子,但是對(duì)于目標(biāo)屬性定義的依賴(lài)限制了描述的生成。近年來(lái)則大多基于深度學(xué)習(xí)提出解決方案,2015 年谷歌 DeepMind 團(tuán)隊(duì)和李飛飛團(tuán)隊(duì)分別提出了基于編碼—解碼框架的show and tell 和 neural talk 模型,均使用 CNN+RNN 的模式;生成對(duì)抗網(wǎng)絡(luò)、深度強(qiáng)化學(xué)習(xí)和注意力機(jī)制也被陸續(xù)引入相關(guān)研究。隨著解決方案的成熟,圖像描述任務(wù)也不斷擴(kuò)展,比如基于群組的圖像描述方法和生成文本的風(fēng)格化問(wèn)題等。
視覺(jué)問(wèn)答
視覺(jué)問(wèn)答可以視作圖像描述問(wèn)題的邏輯推理擴(kuò)展,任務(wù)形式通常是,給定一幅圖片和基于圖片的問(wèn)題,輸出問(wèn)題的正確答案,包括是或否的二元邏輯問(wèn)題和多項(xiàng)選擇以及圖像中的文本信息等。解決方法基本可劃分為四類(lèi):聯(lián)合嵌入模型、注意力機(jī)制模型、模塊化組合模型和知識(shí)庫(kù)增強(qiáng)模型。聯(lián)合嵌入方法將圖像和文字在公共特征空間學(xué)習(xí),注意力機(jī)制使用局部圖像特征對(duì)不同區(qū)域的特征加權(quán)解決噪聲問(wèn)題,模塊化組合模型引入不同功能的神經(jīng)網(wǎng)絡(luò)模塊,知識(shí)庫(kù)增強(qiáng)模型通過(guò)外部知識(shí)庫(kù)解決需要先驗(yàn)知識(shí)的問(wèn)題。作為視覺(jué)問(wèn)答的拓展領(lǐng)域視頻問(wèn)答也越來(lái)越多受到學(xué)者的關(guān)注。
文本圖像生成
文本圖像生成則正好是圖像描述的逆向問(wèn)題,從給定文本描述生成圖像。變分自編碼器、基于流的生成模型和近似PixelCNN等方法都曾用于解決此問(wèn)題。但是自生成對(duì)抗網(wǎng)絡(luò)引入文本圖像生成以來(lái),因其卓越表現(xiàn)已成為主流方法。當(dāng)前基于 GAN 的優(yōu)化方向主要有:其一是調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),比如增加網(wǎng)絡(luò)深度或者引入多個(gè)判別器,其二是充分利用文本信息,比如注意力機(jī)制和 MirrorGAN等工作,其三是增加額外約束,比如 Condition-GAN機(jī)制等工作,其四是分階段生成,比如李飛場(chǎng)景圖和語(yǔ)義中間層等工作。同樣文本圖像生成任務(wù)形式也得到了進(jìn)一步拓展,比如基于多段落生成系列圖片的故事可視化任務(wù)和文本生成視頻等。
視覺(jué)對(duì)話(huà)
視覺(jué)對(duì)話(huà)可以視為圖像描述問(wèn)題的對(duì)話(huà)擴(kuò)展,在 2017 年 CVPR 會(huì)議上由佐治亞理工學(xué)院的 Das A 等人提出,與視覺(jué)問(wèn)答中單次交互不同,視覺(jué)對(duì)話(huà)要求智能體基于視覺(jué)內(nèi)容與人類(lèi)進(jìn)行多次交流。具體講,就是在給定圖像、對(duì)話(huà)歷史記錄和關(guān)于圖像問(wèn)題的條件下,智能體必須基于圖像內(nèi)容,從歷史記錄中推斷上下文,并準(zhǔn)確地回答該問(wèn)題。與此相似的還有‘Guess What?!’任務(wù)但是其僅限于答案為“是”或“否”的布爾型問(wèn)題,Alamri H 等人則進(jìn)一步引入了視頻對(duì)話(huà)的任務(wù)。視覺(jué)對(duì)話(huà)目前的解決方案主要有基于深度強(qiáng)化學(xué)習(xí)的模型、注意力機(jī)制、條件變分自編碼器方法和基于神經(jīng)網(wǎng)絡(luò)模塊的架構(gòu)等。
多模態(tài)機(jī)器翻譯
多模態(tài)機(jī)器翻譯則是對(duì)機(jī)器翻譯工作的擴(kuò)展,其目標(biāo)是給定描述圖片的源語(yǔ)言和圖片本身,根據(jù)文本內(nèi)容和圖像提供的額外信息翻譯成目標(biāo)語(yǔ)言,同時(shí) Specia 定義了兩類(lèi)任務(wù),其一是單句源語(yǔ)言描述圖片,其二是多句源語(yǔ)言描述圖片,Elliott 等人進(jìn)一步將任務(wù)二擴(kuò)展到多種源語(yǔ)言(比如關(guān)于同一圖片英語(yǔ)、法語(yǔ)和德語(yǔ)描述),Wang Xin 等人則進(jìn)一步把任務(wù)擴(kuò)展到視頻層面。研究方向主要有:引入注意力機(jī)制,分解任務(wù)目標(biāo),充分發(fā)掘圖片的視覺(jué)特征,強(qiáng)化學(xué)習(xí)方法的使用,無(wú)監(jiān)督學(xué)習(xí)模型的擴(kuò)展等。
除了以上任務(wù)之外,還有定位視頻中文本位置的視頻文本定位任務(wù),判斷文本描述和圖片內(nèi)容是否匹配的視覺(jué)蘊(yùn)涵任務(wù),問(wèn)題必須基于圖片內(nèi)容進(jìn)行推理才能回答的視覺(jué)推理任務(wù)等。包括上述問(wèn)題在內(nèi)的大部分早期研究往往是在視覺(jué)和語(yǔ)言的層次上不斷擴(kuò)展,比如將圖片擴(kuò)展到視頻,從句子擴(kuò)展到段落等,或者在此基礎(chǔ)上加入邏輯層面的推理等。
但在一定意義上講,上述任務(wù)僅僅是計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩個(gè)任務(wù)的弱耦合,甚至部分任務(wù)可以把視覺(jué)部分和語(yǔ)言部分完全分離地進(jìn)行訓(xùn)練,將其中一部分的輸出作為另一部分的輸入就能實(shí)現(xiàn)任務(wù)的要求,因此沒(méi)有真正的發(fā)掘視覺(jué)與語(yǔ)言的內(nèi)在聯(lián)系,并且其更多的側(cè)重于特定任務(wù)的完成,對(duì)于環(huán)境的感知是被動(dòng)甚至缺失的。因此,為了真正發(fā)掘視覺(jué)與語(yǔ)言的內(nèi)在聯(lián)系,在最新的視覺(jué)與語(yǔ)言的研究中,加入了行為規(guī)劃的部分,這使得智能體不但能夠綜合使用視覺(jué)與語(yǔ)言能力,還能夠不斷通過(guò)與環(huán)境主動(dòng)地交互獲取所需要的信息,在交互中完成對(duì)環(huán)境的理解,進(jìn)而完成指定的任務(wù)。下面介紹在這最新研究方向上的任務(wù),主要包括視覺(jué)語(yǔ)言導(dǎo)航和具身問(wèn)答任務(wù)。
視覺(jué)與語(yǔ)言導(dǎo)航
視覺(jué)導(dǎo)航和語(yǔ)言導(dǎo)航相關(guān)研究
基于視覺(jué)的導(dǎo)航往往需要環(huán)境的先驗(yàn)信息,或者需要使用激光雷達(dá)、深度圖或從運(yùn)動(dòng)中獲取的數(shù)據(jù)以純幾何方法構(gòu)建三維地圖,或者需要人類(lèi)指導(dǎo)的地圖構(gòu)造過(guò)程。并且在地圖構(gòu)造的過(guò)程中,即使環(huán)境有明顯的模式或特征,但是在被完全建模之前也是不能被觀察到的。環(huán)境構(gòu)建與路徑規(guī)劃之間的分離使得系統(tǒng)變得脆弱,因此越來(lái)越多的研究開(kāi)始轉(zhuǎn)向端到端的學(xué)習(xí)方式——不需要顯式的模型或狀態(tài)估計(jì)便可實(shí)現(xiàn)從環(huán)境圖像到路徑行為的轉(zhuǎn)換。
同時(shí)學(xué)者很早就開(kāi)始關(guān)注對(duì)于自然語(yǔ)言的理解,引入語(yǔ)言指引的導(dǎo)航策略也受到過(guò)許多關(guān)注,但是其往往對(duì)于語(yǔ)言或環(huán)境作出了一定程度的抽象,比如語(yǔ)言指令限制在特定范圍或假設(shè)語(yǔ)言命令有固定的結(jié)構(gòu)以及將環(huán)境中的物體做特定標(biāo)記,或者將智能體限制在只需要有限知覺(jué)的視覺(jué)受限環(huán)境中。近年來(lái)雖然有很多新的多模態(tài)非結(jié)構(gòu)化的仿真平臺(tái)比如 House3D 、 AI2-THOR和HoME等,但是其基于人工合成而非真實(shí)圖像的模型一定程度上限制了環(huán)境建模的準(zhǔn)確性和豐富性。
視覺(jué)語(yǔ)言導(dǎo)航任務(wù)內(nèi)容
Qi Wu 等人在 2018 年 CVPR 會(huì)議上提出了視覺(jué)語(yǔ)言導(dǎo)航任務(wù),要求智能體在給定語(yǔ)言指令的情況下,在作者提供的 Matterport3D simulator 仿真環(huán)境中,從隨機(jī)初始位置到達(dá)目標(biāo)位置,并且其仿真環(huán)境構(gòu)建于包含大量基于真實(shí)圖像生成的 RGB-D 全景圖的數(shù)據(jù)集 Matterport3D。但是其相對(duì)復(fù)雜和具體的語(yǔ)言描述與實(shí)際不太相符。因此在 2019 年,Qi Wu 等人進(jìn)一步提出被稱(chēng)為 RERERE(remote embodied referring expressions in real indoor environments) 的任務(wù),精簡(jiǎn)指令的同時(shí)引入了對(duì)于環(huán)境的理解。
視覺(jué)語(yǔ)言導(dǎo)航任務(wù)最新進(jìn)展
Qi Wu 提出任務(wù)的同時(shí),同時(shí)提出了將智能體建模為基于長(zhǎng)短期記憶(long short term memory, LSTM) 序列到序列結(jié)構(gòu) (sequence-to-sequence architecture)注意力機(jī)制循環(huán)神經(jīng)網(wǎng)絡(luò)的解決方案和隨機(jī)移動(dòng)策略和最短路徑策略?xún)煞N基線算法以及人類(lèi)在此任務(wù)中的表現(xiàn)(成功率 86.4%)。
視覺(jué)語(yǔ)言導(dǎo)航任務(wù)也可以視為在給定語(yǔ)言指導(dǎo)條件下尋找從起始點(diǎn)到目標(biāo)點(diǎn)最佳路徑的軌跡搜索問(wèn)題,基于此 Fried D 提出 speaker-follower 系統(tǒng),系統(tǒng)中的 speaker 模型用于學(xué)習(xí)路徑描述,follower 模型用于預(yù)測(cè)和執(zhí)行路徑,并使用全景行為空間代替視覺(jué)運(yùn)動(dòng)空間的方式使得智能體可以感知當(dāng)前位置 360°全景視覺(jué)。
為解決視覺(jué)語(yǔ)言導(dǎo)航任務(wù)中的解決跨模態(tài)基標(biāo)對(duì)準(zhǔn)問(wèn)題和增強(qiáng)泛化能力,Xin Wang 等人提出基于強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的策略,引入了強(qiáng)化跨模態(tài)匹配方法和自監(jiān)督模仿學(xué)習(xí)方法。
在之前的研究中,視覺(jué)語(yǔ)言導(dǎo)航任務(wù)中主要評(píng)價(jià)指標(biāo)是任務(wù)完成度即最終位置與目標(biāo)位置之間的關(guān)系,因此語(yǔ)言指示在導(dǎo)航任務(wù)所發(fā)揮的作用難以量化。谷歌研究院的 Jain V 等人因此提出可刻畫(huà)預(yù)測(cè)路徑與語(yǔ)言指示之間契合度的評(píng)價(jià)標(biāo)準(zhǔn) CLS(coverage weighted by length score),并根據(jù)此指標(biāo)擴(kuò)展了 R2R 數(shù)據(jù)集,提出包含更多節(jié)點(diǎn)和更多樣化路徑的 R4R(room-for-room)數(shù)據(jù)集。
在實(shí)際導(dǎo)航場(chǎng)景中,使用者更傾向于利用簡(jiǎn)練的語(yǔ)言給定任務(wù)的內(nèi)容而非具體詳盡地描述路徑的所有信息,因此 Qi Wu 等人進(jìn)一步提出 remote embodied referring expressions in
real indoor environments(RERERE) 的任務(wù),其中包含類(lèi)似“去帶條紋墻紙的臥室”的導(dǎo)航部分和類(lèi)似“把放在凳子旁邊的枕頭拿給我”的指稱(chēng)表達(dá)部分,并提供了被稱(chēng)為導(dǎo)航—指向模型的基線算法。
具身問(wèn)答
具身認(rèn)知概念
具身認(rèn)知 (embodied cognition) 這一概念是隨著哲學(xué)、人工智能和相關(guān)領(lǐng)域的發(fā)展關(guān)于認(rèn)知的本質(zhì)被重新思考和定義的過(guò)程中誕生的,新的研究越來(lái)越傾向于認(rèn)為大多數(shù)現(xiàn)實(shí)世界的思考常常發(fā)生在非常特殊通常也十分復(fù)雜的環(huán)境中,出于非常實(shí)際的目的,并且利用外部事物的可交互性和可操作性 ,即認(rèn)知是一種非常具體化和情景化的活動(dòng)。身體的解剖學(xué)結(jié)構(gòu)、身體的活動(dòng)方式、身體的感覺(jué)和運(yùn)動(dòng)體驗(yàn)都決定了人類(lèi)怎樣認(rèn)識(shí)和看待世界。簡(jiǎn)而言之,具身認(rèn)知理論認(rèn)為人的生理體驗(yàn)與心理狀態(tài)之間是有著深刻的內(nèi)在聯(lián)系。因此具身相關(guān)任務(wù)的內(nèi)涵,就是將任務(wù)具體化到可交互的場(chǎng)景中,而非傳統(tǒng)的靜態(tài)圖片或無(wú)法互動(dòng)的視頻。
具身問(wèn)答任務(wù)內(nèi)容
具身問(wèn)答 (embodied question answering) 是 Das 等人在 2018 年 CVPR 會(huì)議上提出的任務(wù),將智能體隨機(jī)安放在三維環(huán)境中的某個(gè)位置,并且以語(yǔ)言的形式提出類(lèi)似“汽車(chē)的顏色是什么”或者“有多少個(gè)房間里有椅子”等類(lèi)似需要環(huán)境信息的問(wèn)題,為了得到問(wèn)題的答案,智能體需要自主地對(duì)環(huán)境進(jìn)行探索并且收集所需要的信息,最后對(duì)問(wèn)題作出解答。智能體僅依靠單目全景 RGB 攝像頭與環(huán)境交互,而沒(méi)有類(lèi)似環(huán)境地圖、自身定位的全局表示或類(lèi)似物體信息、房間描述的結(jié)構(gòu)表示,當(dāng)然也沒(méi)有關(guān)于任務(wù)本身的額外信息,即先驗(yàn)知識(shí)幾乎為零,需要智能體充分理解任務(wù)內(nèi)容的情況下,通過(guò)與具體環(huán)境的不斷交互,實(shí)現(xiàn)對(duì)環(huán)境的理解,進(jìn)而完成問(wèn)題的回答。
具身問(wèn)答任務(wù)最新進(jìn)展
Das 等人提供的基線算法中智能體視覺(jué)、語(yǔ)言、導(dǎo)航和回答四個(gè)部分的實(shí)現(xiàn),其中視覺(jué)部分基于通過(guò) CNN 將 RGB 圖像生成固定大小的表示,語(yǔ)言部分使用 LSTM 編碼,導(dǎo)航部分引入包含選擇動(dòng)作(前進(jìn),左轉(zhuǎn),右轉(zhuǎn))的規(guī)劃模塊和指定執(zhí)行次數(shù)(1, 2…)的控制模塊的自適應(yīng)倍率計(jì)算方法,問(wèn)答部分計(jì)算智能體軌跡最后五幀的圖像-問(wèn)題相似性的視覺(jué)編碼與問(wèn)題的 LSTM 編碼進(jìn)行比較并輸出結(jié)果。
在上述研究的基礎(chǔ)上,受人類(lèi)將行為概念化為一系列更高層次語(yǔ)義目標(biāo)(比如為了吃夜宵,人類(lèi)會(huì)將其抽象為“離開(kāi)臥室—走到廚房—打開(kāi)冰箱—找到甜點(diǎn)”而不會(huì)詳盡地規(guī)劃路線)的啟發(fā),Das 等人進(jìn)一步提出了模塊化學(xué)習(xí)策略,將學(xué)習(xí)目標(biāo)加以分解。
Yu L 等人則把 EQA 任務(wù)擴(kuò)展為 MT-EQA(multi-target EQA) 即在問(wèn)題形式中引入了多目標(biāo),比如類(lèi)似“臥室里的梳妝臺(tái)比廚房里的烤箱更大么”這樣的問(wèn)題。
Wijmans E 等人設(shè)計(jì)了基于三維點(diǎn)云格式的具身問(wèn)答數(shù)據(jù)集 MP3D-EQA,設(shè)計(jì)并測(cè)試了多達(dá) 16 種不同的導(dǎo)航策略組合,提出損失加權(quán)方案 Inflection Weighting 以提高行為模仿的有效性。
相關(guān)數(shù)據(jù)集介紹
視覺(jué)語(yǔ)言導(dǎo)航任務(wù)主要包含 3 個(gè)數(shù)據(jù)集,其一是 Qi Wu等人在提出視覺(jué)語(yǔ)言導(dǎo)航任務(wù)時(shí)開(kāi)源的 R2R(room-to-room) 數(shù)據(jù)集,其二是 Jain V 等人在改進(jìn)任務(wù)評(píng)價(jià)方法時(shí)開(kāi)源的R4R(room-for-room) 數(shù)據(jù)集,其三是 Qi Wu 等人提出RERERE 任務(wù)時(shí)建立的數(shù)據(jù)集(暫未開(kāi)源)。表 1 是三個(gè)數(shù)據(jù)集的簡(jiǎn)單對(duì)比,從對(duì)比中可以發(fā)現(xiàn),因?yàn)?R4R 數(shù)據(jù)集更傾向于使得智能體運(yùn)動(dòng)軌跡更加符合導(dǎo)航指令而非最短距離,因此參考路徑的長(zhǎng)度要大于最短路徑的長(zhǎng)度;而 RERERE 任務(wù)則傾向于使用更加簡(jiǎn)潔的指令,因此指令平均長(zhǎng)度要小于R2R。
具身問(wèn)答任務(wù)數(shù)據(jù)集主要包括 3 個(gè)數(shù)據(jù)集,其一是 Das等人開(kāi)源的 EQA(embodied question answering) v1 數(shù)據(jù)集,其二是 Yu L 等人引入多目標(biāo)任務(wù)時(shí)提出的 MT-EQA(multitarget EQA) 數(shù)據(jù)集,其三是 Wijmans E 等人將任務(wù)中的數(shù)據(jù)類(lèi)型替換為點(diǎn)云時(shí)提出的數(shù)據(jù)集 MP3D-EQA 數(shù)據(jù)集,后兩個(gè)數(shù)據(jù)集暫時(shí)未開(kāi)源。表 2 是三個(gè)數(shù)據(jù)集的內(nèi)容對(duì)比。需要注意的是,數(shù)據(jù)集中包含被稱(chēng)為 unique question 的問(wèn)題,是指可能產(chǎn)生歧義的問(wèn)題,比如房間中同時(shí)存在兩臺(tái)冰箱時(shí),問(wèn)題 ‘What room is the air conditioner located in?’ 就會(huì)產(chǎn)生歧義。
計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理融合未來(lái)方向展望
真實(shí)環(huán)境遷移與泛化能力
視覺(jué)與自然語(yǔ)言結(jié)合的任務(wù)取得了令人矚目的進(jìn)展,從早期簡(jiǎn)單將兩部分技術(shù)簡(jiǎn)單串聯(lián)加和的形式擴(kuò)展到需要智能體借助視覺(jué)和語(yǔ)言理解環(huán)境并且采取行動(dòng)的深度融合,但是絕大部分任務(wù)都是基于現(xiàn)有的數(shù)據(jù)集在模擬的環(huán)境中進(jìn)行。誠(chéng)然,考慮到目前表現(xiàn)較好的算法均是基于需要大量試錯(cuò)的深度強(qiáng)化學(xué)習(xí)方法,在真實(shí)環(huán)境中訓(xùn)練的確會(huì)消耗大量的時(shí)間與精力,但是在模擬環(huán)境表現(xiàn)完美的模型遷移到真實(shí)環(huán)境中也可能會(huì)遇到很多意料之外的問(wèn)題。
而現(xiàn)有的絕大部分研究只是在數(shù)據(jù)集上達(dá)到了較高的精度(比如視覺(jué)語(yǔ)言導(dǎo)航任務(wù)中 SOTA 算法在可見(jiàn)驗(yàn)證集和不可見(jiàn)驗(yàn)證集上分別達(dá)到了73.0%和 61.3%的成功率),僅有少數(shù)學(xué)者將算法在實(shí)際環(huán)境中加以驗(yàn)證。因此未來(lái)研究重要方向之一是如何將模型遷移到真實(shí)環(huán)境中。在此過(guò)程中,泛化能力又是其中關(guān)鍵,即智能體若遇到訓(xùn)練集中未出現(xiàn)的環(huán)境或者未遇到的物體,能否根據(jù)過(guò)往經(jīng)驗(yàn)作出較為合理的反應(yīng),可能的解決方案是借鑒已經(jīng)在視覺(jué)對(duì)話(huà)、常識(shí)推理和事實(shí)預(yù)測(cè)等方向得到廣泛使用和驗(yàn)證的外部知識(shí)庫(kù)方法,即利用事實(shí)性或常識(shí)性的先驗(yàn)知識(shí)提高智能體對(duì)于環(huán)境的理解和認(rèn)知能力。
與環(huán)境更強(qiáng)大的交互能力
目前已經(jīng)開(kāi)源的數(shù)據(jù)集中,智能體與環(huán)境之間的交互相對(duì)有限,僅涉及打開(kāi)微波爐、移動(dòng)物體或到達(dá)指定位置等基本操作,并且可采取的運(yùn)動(dòng)形式限制在特定范圍(比如前進(jìn)、左轉(zhuǎn)和右轉(zhuǎn)),雖然在最新的研究中已經(jīng)涉及類(lèi)似“把放在凳子旁邊的枕頭拿給我”這類(lèi)相對(duì)較為復(fù)雜的交互形式,但是顯然與真實(shí)環(huán)境的交互方式和運(yùn)動(dòng)形式有較大的差距,并且簡(jiǎn)化了真實(shí)環(huán)境中的諸多物理性限制,比如“去廚房拿一個(gè)雞蛋”和“去廚房拿一把勺子”語(yǔ)言指示,在真實(shí)的環(huán)境中智能體需要考慮分別以何種的力度夾取雞蛋和勺子,而現(xiàn)有的數(shù)據(jù)集并不考慮此類(lèi)區(qū)別。
另一個(gè)比較有前景的方向是與物聯(lián)網(wǎng)的深度結(jié)合,電視、空調(diào)和冰箱等對(duì)于人類(lèi)而言需要后天習(xí)得交互方式的電器,卻因其規(guī)則明確和易于聯(lián)網(wǎng)的性質(zhì)能夠與智能體直接交互。最后就是對(duì)環(huán)境中其他信息的利用,比如利用聲音信息對(duì)不可見(jiàn)物體的非視距重建、使用工具達(dá)成指定目標(biāo)甚至與環(huán)境中其他智能體的對(duì)話(huà)交流等。這些與環(huán)境的相對(duì)復(fù)雜的交互是目前研究所欠缺的,但也是未來(lái)智能體在真實(shí)環(huán)境中運(yùn)行所需要的。
推理能力的引入
目前無(wú)論是視覺(jué)語(yǔ)言導(dǎo)航還是具身問(wèn)答,所給的任務(wù)都相對(duì)直接(比如根據(jù)語(yǔ)言提示到達(dá)某個(gè)房間或者回答環(huán)境中某物體是什么顏色等),但是現(xiàn)實(shí)生活中更多是是需要推理能力的問(wèn)題,比如類(lèi)似視覺(jué)推理任務(wù)中的比較、屬性識(shí)別和邏輯運(yùn)算等初級(jí)推理能力,以及演繹、歸納和類(lèi)比等高級(jí)推理能力。雖然在部分研究中已經(jīng)涉及推理能力,但仍相對(duì)簡(jiǎn)單,未來(lái)可能會(huì)引入類(lèi)似“房間裝修是什么風(fēng)格?”或者“到書(shū)房中取一本散文集?!?br />
這種涉及相對(duì)高級(jí)推理能力的任務(wù),前者需要智能體基于房間的整體特征比如吊燈的樣式、桌椅的擺放和墻紙的花飾等信息歸納推理得出裝修風(fēng)格的答案,后者則需要智能體能夠區(qū)分散文、小說(shuō)或詩(shī)歌等不同的文體。當(dāng)然目前視覺(jué)和自然語(yǔ)言方面的進(jìn)展距離解決此類(lèi)問(wèn)題仍有較大空間,但是推理能力尤其是高級(jí)推理能力的研究不失為一個(gè)值得關(guān)注的研究方向。
三維數(shù)據(jù)的使用
三維點(diǎn)云數(shù)據(jù)可以提供比圖像更豐富和準(zhǔn)確的信息,Wijmans E 等人發(fā)現(xiàn)在具身問(wèn)答任務(wù)中點(diǎn)云信息可以提升智能體避障能力的學(xué)習(xí),Wang Y 等人甚至發(fā)現(xiàn)僅僅將二維的雙目視覺(jué)圖像轉(zhuǎn)換為三維點(diǎn)云數(shù)據(jù)就能大幅提高目標(biāo)檢測(cè)的準(zhǔn)確度,因此點(diǎn)云數(shù)據(jù)可能不單在信息內(nèi)容方面甚至是在數(shù)據(jù)表示方面均提供了更多的信息。但是一方面受制于點(diǎn)云數(shù)據(jù)獲取的成本和難度,成本百元的相機(jī)模組在短短幾秒鐘內(nèi)便可獲取千萬(wàn)像素級(jí)別的高精度圖像,但是點(diǎn)云獲取設(shè)備往往動(dòng)輒數(shù)十萬(wàn)獲取時(shí)間也往往需要數(shù)分鐘甚至數(shù)小時(shí)。
另一方面基于點(diǎn)云的深度學(xué)習(xí)研究相對(duì)滯后于圖像,雖然得益于 Point Net++、ASCN、和 SplatNet等方法的提出,點(diǎn)云數(shù)據(jù)固有的無(wú)序性和旋轉(zhuǎn)性不再是應(yīng)用深度學(xué)習(xí)技術(shù)的障礙,但是學(xué)術(shù)界對(duì)于點(diǎn)云數(shù)據(jù)的研究仍遠(yuǎn)遠(yuǎn)少于圖像數(shù)據(jù)。因此不論是點(diǎn)云數(shù)據(jù)集的構(gòu)建還是基于點(diǎn)云數(shù)據(jù)的研究均不同程度的存在一些困難。后續(xù)的研究可能需要更多的引入點(diǎn)云格式的環(huán)境信息,為了彌補(bǔ)目前點(diǎn)云數(shù)據(jù)獲取困難的狀況,基于雙目視覺(jué)的三維重建可能是很有希望的輔助手段之一。
學(xué)習(xí)目標(biāo)的優(yōu)化
建構(gòu)主義者認(rèn)為,學(xué)習(xí)是學(xué)習(xí)者在與環(huán)境交互作用的過(guò)程中主動(dòng)地建構(gòu)內(nèi)部心理表征的過(guò)程。而本文現(xiàn)在已經(jīng)擁有了多個(gè)可交互的模擬環(huán)境,因此后續(xù)的研究可以在不斷地交互進(jìn)行比如對(duì)自然語(yǔ)言的理解或者對(duì)環(huán)境中工具的使用等能力的學(xué)習(xí)和提升。此外從表 1 的分類(lèi)中可以看出,視覺(jué)語(yǔ)言導(dǎo)航、具身問(wèn)答以及交互式問(wèn)答等在語(yǔ)言層面仍停留于“問(wèn)答”階段,即針對(duì)單一問(wèn)題給出正確的答案,未來(lái)的研究中很有可能將目標(biāo)優(yōu)化到“對(duì)話(huà)”層面,即針對(duì)多個(gè)有內(nèi)在邏輯聯(lián)系的問(wèn)題分別給出正確答案,同時(shí)問(wèn)題之間的內(nèi)在聯(lián)系也有助于智能體更好地理解環(huán)境。
注:本文旨在學(xué)習(xí)和分享,如內(nèi)容上有不到之處,歡迎批評(píng)指正
參考文獻(xiàn):
[1]李睿,鄭順義,王西旗.視覺(jué)—語(yǔ)言—行為:視覺(jué)語(yǔ)言融合研究綜述[J/OL].計(jì)算機(jī)應(yīng)用研究:1-8[2020-09-06].https://doi.org/10.19734/j.issn.1001-3695.2019.09.0512.
責(zé)任編輯:xj
原文標(biāo)題:一文了解計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理融合的研究進(jìn)展
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1701瀏覽量
46148 -
自然語(yǔ)言
+關(guān)注
關(guān)注
1文章
291瀏覽量
13407
原文標(biāo)題:一文了解計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理融合的研究進(jìn)展
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論