本文由來自 Facebook 人工智能研究院的研究員 Dhruv Batra 和 Devi Parikh 共同撰寫,文中介紹了 Facebook 關(guān)于自主智能體的最新研究成果——目標(biāo)驅(qū)動(dòng)自主學(xué)習(xí),并且還宣布了開源 EmbodiedQA 和 House3D 數(shù)據(jù)集.
大多數(shù)能夠與人類進(jìn)行互動(dòng)的自主智能體(Autonomous agents)都存在一些共同點(diǎn):它們并不是那么自給自足(Self-sufficient)。例如,一個(gè)智能音箱(Smart speaker)雖然可以通過語音接口與人類進(jìn)行交流并采取一些動(dòng)作(比如訂購產(chǎn)品),但是它卻無法感知周圍環(huán)境。而另一方面,割草機(jī)器人雖然具備動(dòng)作(割草)和感知(通過傳感器)能力,但是它除了不斷閃爍燈光或者發(fā)送錯(cuò)誤信息以外,還無法實(shí)現(xiàn)與主人的自由交流。
如果不同時(shí)具備三個(gè)重要的關(guān)鍵因素——感知、溝通和動(dòng)作,那么自主智能體就無法成為一個(gè)全面的助理,而這其中的空白代溝還需要人類參與進(jìn)來彌補(bǔ)。然而這個(gè)問題對(duì)于目前的智能體來說似乎并不是什么大毛病,例如,Roomba 機(jī)器人如果忽略了通知你有把椅子阻礙了它的清潔路線,這只是一點(diǎn)小困難而不是什么大災(zāi)難。但是為了讓下一代智能體能融入并改變我們的生活,那么自主系統(tǒng)還需要變得更加自給自足。
訓(xùn)練人工智能系統(tǒng)時(shí)要扔下嬰兒車
為了給那些對(duì)人類微觀管理依賴程度較低且更具通用性的系統(tǒng)鋪平道路,F(xiàn)acebook 人工智能研究院(FAIR)開發(fā)了一系列用于訓(xùn)練和測(cè)試自主智能體的虛擬環(huán)境,以及能夠?qū)W習(xí)智能探索那些環(huán)境的新型智能體。這些智能體將被用來作為模擬機(jī)器人而使用,它們是 Facebook 與佐治亞理工學(xué)院的研究員合作創(chuàng)建的。使用虛擬智能體和虛擬環(huán)境比起將真實(shí)的機(jī)器人送到現(xiàn)有的室內(nèi)場(chǎng)所要來得高效得多,因?yàn)檫@需要花費(fèi)數(shù)千臺(tái)機(jī)器來匹配基于 AI 訓(xùn)練的運(yùn)行速度。Facebook F8 會(huì)議上關(guān)于通過 AI 提高內(nèi)容的可訪問性的主題演講中簡(jiǎn)單介紹過這項(xiàng)工作。
FAIR 的目標(biāo)是指導(dǎo)系統(tǒng)根據(jù)長(zhǎng)期計(jì)劃采取多種動(dòng)作,同時(shí)還要努力完成所給定的任務(wù)。為了取得成功,這些智能體必須在它們的環(huán)境中行動(dòng),綜合使用感知、導(dǎo)航和溝通的能力去尋找出給定問題的答案,然后使用簡(jiǎn)單自然的語言轉(zhuǎn)達(dá)這些答案。對(duì)于 AI 來說,這是一個(gè)極具挑戰(zhàn)性的問題,如果一旦實(shí)現(xiàn)就是朝著自治水平邁出了一步,并且該智能體的適應(yīng)性也將足以在非結(jié)構(gòu)化的人造世界中發(fā)揮作用。
為了測(cè)試這種目標(biāo)導(dǎo)向(Goal-driven)的方法,F(xiàn)AIR 和佐治亞理工學(xué)院聯(lián)合提出了一個(gè)多步驟 AI 任務(wù),稱為「具體化問答(Embodied Question Answering)」或者「EmbodiedQA」。與聊天機(jī)器人或者智能音箱相比,此智能體必須在物理環(huán)境(盡管是虛擬環(huán)境)中去學(xué)習(xí)和運(yùn)行,因此稱為「具體化的(Embodied)」。當(dāng)智能體被問及單一問題時(shí),例如「車子是什么顏色的?」或「我的鑰匙落在了哪個(gè)房間里?」,智能體必須能夠理解書面語言,然后用第一人稱相機(jī)去感知周圍環(huán)境,探索 3D 的室內(nèi)環(huán)境直到找到答案。并且為了使得智能體的自主性更加完善,它還將通過自然語言的方式回復(fù)該答案以完成自己的使命。
FAIR 提出了一項(xiàng)新的 AI 任務(wù)——具體化問答(Embodied Question Answering)。上圖中在一個(gè) 3D 環(huán)境中的某個(gè)隨機(jī)位置產(chǎn)生一個(gè)智能體,并給出一個(gè)問題(車是什么顏色的?)。為了回答這個(gè)問題,智能體必須借助智能導(dǎo)航以探索環(huán)境,通過第一人稱(以自我為中心)的視覺收集信息,然后回答問題(橙色)。
FAIR 相信這些是第一個(gè)要求 AI 系統(tǒng)綜合展示感知、交流和動(dòng)作以達(dá)成目標(biāo)的實(shí)驗(yàn)。將完全自主(智能體在沒有人類引導(dǎo)和干預(yù)的情況下實(shí)現(xiàn)了自主活動(dòng))和不熟悉的環(huán)境結(jié)合起來增加了整個(gè)任務(wù)的挑戰(zhàn)性。智能體要在隨機(jī)的、數(shù)以百計(jì)的不同樓層平面圖(每個(gè)平面都是仿照現(xiàn)實(shí)家庭進(jìn)行建模)中運(yùn)行,而且不具有在該環(huán)境中實(shí)踐運(yùn)行過所帶來的增益,也不曾在類似的地圖上運(yùn)行過。更難的是,為了回答提出的問題,智能體必須移動(dòng),因?yàn)閱栴}中的對(duì)象也許無法立即看到。
在工作中學(xué)習(xí)
為了訓(xùn)練和評(píng)估這些智能體,所需的虛擬環(huán)境不僅僅要具備交互功能,還要具備多樣化和數(shù)量充足的特性,以避免智能體在相同環(huán)境中反復(fù)運(yùn)行,這對(duì)自主智能體的發(fā)展而言是一個(gè)更加巨大的挑戰(zhàn)。FAIR 的解決方案稱為 House3D,它是由 45000 個(gè)手動(dòng)創(chuàng)建的模擬室內(nèi)環(huán)境所組成的。House3D 是基于普林斯頓大學(xué)的 SUNCG 數(shù)據(jù)集而創(chuàng)建的,但是 House3D 作為一個(gè)完全可導(dǎo)航的位置集合(Fully navigable set of locations),使得智能體能夠同時(shí)探索數(shù)千個(gè)房間,這比起在現(xiàn)實(shí)生活空間中訓(xùn)練具有復(fù)雜機(jī)械結(jié)構(gòu)的機(jī)器人要來得快得多。它也使得我們可以進(jìn)行可重復(fù)性的科學(xué)實(shí)驗(yàn)。并且 House3D 還進(jìn)行了開源,目前可以在 GitHub 上獲取。
為了在 House3D 中每次都能進(jìn)行獨(dú)特的尋寶活動(dòng),智能體必須在完成任務(wù)的過程中學(xué)習(xí)一系列核心能力——從對(duì)室內(nèi)物體的識(shí)別(沙發(fā)、椅子等)到對(duì)問題的語言理解。
第一種習(xí)得的能力是主動(dòng)感知(Active perception),或者是智能控制前面像素的能力,因?yàn)橐婚_始目標(biāo)對(duì)象不太可能會(huì)剛好位于智能體的視線范圍內(nèi)(圖像通過一個(gè) 224x224 分辨率的 RGB 模擬攝像頭采集)。因此,智能體不是被動(dòng)地感知問題中提及的對(duì)象(固定圖像數(shù)據(jù)集中就是如此),而是通過探索周圍環(huán)境主動(dòng)將目標(biāo)對(duì)象尋找出來。
這項(xiàng)研究的一個(gè)創(chuàng)新點(diǎn)在于實(shí)現(xiàn)了導(dǎo)航的模塊化方法,該方法將導(dǎo)航任務(wù)劃分成了兩個(gè)部分。規(guī)劃者(Planner)負(fù)責(zé)選擇移動(dòng)的方向,例如向左移動(dòng),而控制器(Controller)則負(fù)責(zé)確定在該方向需要移動(dòng)多遠(yuǎn)。這種策略避免了智能體在移動(dòng)前需要去創(chuàng)建長(zhǎng)遠(yuǎn)而又詳細(xì)的路徑規(guī)劃,因?yàn)檫@么干會(huì)導(dǎo)致更多的錯(cuò)誤和更弱的適應(yīng)性。此外規(guī)劃者-控制器(Planner-Controller)這套設(shè)置也更適合于強(qiáng)化學(xué)習(xí),在這里智能體將根據(jù)積極或者消極的反饋來動(dòng)態(tài)調(diào)整其導(dǎo)航。
FAIR 的智能體將導(dǎo)航任務(wù)分解為一個(gè)規(guī)劃者(PLNR)模塊和一個(gè)控制器(CTRL)模塊。規(guī)劃者從卷積神經(jīng)網(wǎng)絡(luò)(CNN)獲得輸入,然后決定所采取的動(dòng)作。同時(shí)控制器將決定繼續(xù)執(zhí)行該動(dòng)作的時(shí)間步變量——從而實(shí)現(xiàn)方向和速度之間的解耦合。這使得規(guī)劃者能夠在更短的時(shí)間內(nèi)進(jìn)行更有效的操作,從而減輕了訓(xùn)練難度。
下一步,智能體必須學(xué)會(huì)常識(shí)推理,然后在一個(gè)新的但是卻并非完全陌生的環(huán)境中去發(fā)揮作用。盡管人們可能知道車庫往往位于房屋的周圍,因此可以通過外部門進(jìn)入,但是 AI 系統(tǒng)卻需要自己去學(xué)習(xí)這些知識(shí)。隨著在不同的模擬家庭中成功達(dá)到目標(biāo),智能體必須發(fā)展出這種常識(shí),以縮短尋找指定對(duì)象然后回答相關(guān)問題所花費(fèi)的時(shí)間。
作為常識(shí)積累的后續(xù)階段,智能體還要學(xué)習(xí)語言基礎(chǔ),或者是學(xué)習(xí)如何把單詞(比如針對(duì)對(duì)象的描述)與特定的動(dòng)作聯(lián)系起來。例如,當(dāng)為了找到可能位于車庫中的汽車而搜索車庫時(shí),智能體不會(huì)被迫查看每個(gè)可能的空間,直到它找到與車庫對(duì)應(yīng)的一組像素為止。恰恰相反,智能體使用「車庫」作為一個(gè)行動(dòng)的指令,然后直接去找到外部門,從而更加高效地定位它的目標(biāo)。
最后,因?yàn)?FAIR 的目標(biāo)是超越繁瑣的、逐步的人為監(jiān)督,從微弱和遠(yuǎn)期的目標(biāo)驅(qū)動(dòng)獎(jiǎng)勵(lì)中學(xué)習(xí),所以智能體必須學(xué)會(huì)的最重要的能力之一是「功勞分配(Credit assignment)」,這意味著智能體能夠知道自己一路上所做的行為哪些是正確的而哪些又是錯(cuò)誤的。例如,如果詢問「多少個(gè)房間里有椅子?」,然后智能體并沒有被明確告知需要檢查每一個(gè)房間,甚至沒有被告知要從家中含有椅子的區(qū)域開始計(jì)算。智能體能夠憑借自己的力量去探索和回答問題,而不需要借助人類提供的詳細(xì)的逐步計(jì)劃。因此,從它是否正確回答的一個(gè)微弱信號(hào)來看,它必須自行學(xué)習(xí)其數(shù)百項(xiàng)相互依賴的行動(dòng)中是哪一項(xiàng)導(dǎo)致了成功。為了增強(qiáng)傳統(tǒng)的強(qiáng)化學(xué)習(xí),F(xiàn)AIR 使用模仿學(xué)習(xí)(Imitation learning,比較智能體的運(yùn)動(dòng)與到達(dá)目標(biāo)的可能最短路徑)和獎(jiǎng)勵(lì)塑造(Reward shaping,通過「變得更近」和「變得更遠(yuǎn)」信號(hào)隨時(shí)間變化而改進(jìn)智能體的表現(xiàn))來允許智能體把它真正使命拼湊起來,即便該使命在開始時(shí)并不明晰。
讓自主系統(tǒng)更加自主
經(jīng)過訓(xùn)練的 EmbodiedQA 智能體與標(biāo)準(zhǔn)序列模型基準(zhǔn)(一個(gè) LSTM 導(dǎo)航器)相比,表現(xiàn)的相當(dāng)合理。
該視頻比較了 FAIR 開發(fā)的智能體(名稱為 ACT+Q-RL)與基準(zhǔn)的性能表現(xiàn)(名稱為 LSTM+Q)。視頻地址
和 House3D 一樣,F(xiàn)AIR 收集的 EmbodiedQA 數(shù)據(jù)將進(jìn)行開源,并且旨在啟發(fā)更廣泛的 AI 研究社區(qū)內(nèi)的其它項(xiàng)目。為了給其他研究人員提供完整的背景,F(xiàn)AIR 將人類帶入了這個(gè)方程式中。FAIR 和佐治亞理工學(xué)院將自主智能體導(dǎo)航與問答的能力與遠(yuǎn)程遙控智能體進(jìn)行了對(duì)比,這些遠(yuǎn)程遙控智能體由人類(通過亞馬遜的 Mechanical Turk 平臺(tái))進(jìn)行操控,從而建立了專家級(jí)別的基準(zhǔn)導(dǎo)航示例。由此產(chǎn)生的數(shù)據(jù)集包括,與 750 個(gè)獨(dú)特的、多房間的環(huán)境相關(guān)的合成產(chǎn)生問題(Synthetically generated questions)。智能體(和人類)準(zhǔn)確性的故障以及我們使用的問答生成引擎也將成為 EQA v1 開源版本中的一部分,該版本在不久的將來可以獲取到。
雖然 EmbodiedQA 是只涵蓋了一種目標(biāo)驅(qū)動(dòng)的自主任務(wù),但是它卻代表了人工智能的高難度(因?yàn)樗鼘⒏鞣N各樣的子任務(wù)合并成了一個(gè)任務(wù)),并且有機(jī)會(huì)探索采取「行動(dòng)」的新學(xué)習(xí)范式,這是成功的先決條件。無法做出決策的智能體——在這種情況下,通過在現(xiàn)實(shí)家庭中導(dǎo)航,確定它們收集到了相關(guān)的數(shù)據(jù),然后傳達(dá)它們發(fā)現(xiàn)的內(nèi)容——這種智能體在我們的實(shí)驗(yàn)中是無法完成任務(wù)的。
這種挑戰(zhàn)是艱巨的,因?yàn)樗陵P(guān)重要。在短期內(nèi),目標(biāo)驅(qū)動(dòng)的算法可以使用自動(dòng)化來改善 AR 和 VR 的體驗(yàn),為可用的接口選項(xiàng)添加直觀的語音交互。但這種基于行為的目標(biāo)驅(qū)動(dòng)方法的長(zhǎng)期影響可能會(huì)延伸到自主性上。從數(shù)字助理可以根據(jù)單一命令(例如,不僅可以預(yù)約醫(yī)生,還可以重新安排沖突的會(huì)議)執(zhí)行一系列家務(wù)事,到災(zāi)難響應(yīng)機(jī)器人遵循來自第一響應(yīng)者的簡(jiǎn)單語音命令,這種適應(yīng)性的自動(dòng)化可能會(huì)對(duì)我們的生活產(chǎn)生重大影響。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28710瀏覽量
208705 -
Facebook
+關(guān)注
關(guān)注
3文章
1432瀏覽量
55030 -
智能體
+關(guān)注
關(guān)注
1文章
172瀏覽量
10623
原文標(biāo)題:Facebook 最新研究:自主學(xué)習(xí)一個(gè)會(huì)和世界互動(dòng)的智能體
文章出處:【微信號(hào):IndustryIOT,微信公眾號(hào):工業(yè)互聯(lián)網(wǎng)前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
基于車車通信和自主感知的列車自主運(yùn)行控制系統(tǒng)在寧波8號(hào)線測(cè)試驗(yàn)證成功
云天勵(lì)飛助力深圳自主泊車代駕新突破
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人的基礎(chǔ)模塊
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.初步理解具身智能
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+初品的體驗(yàn)
Microsoft Copilot Studio自主智能體功能現(xiàn)已推出預(yù)覽版
微軟Copilot Studio新功能:支持定制Agent 賦能用戶構(gòu)建自主智能體
![微軟Copilot Studio新功能:支持定制Agent 賦能用戶構(gòu)建<b class='flag-5'>自主</b><b class='flag-5'>智能</b><b class='flag-5'>體</b>](https://file1.elecfans.com/web1/M00/F4/AE/wKgZoWcwFSKAZeWrAAAA0LtzocY652.png)
小鵬汽車發(fā)布自主研發(fā)的“圖靈”AI智能駕駛輔助系統(tǒng)
SynSense時(shí)識(shí)科技與海南大學(xué)聯(lián)合研究成果發(fā)布
![SynSense時(shí)識(shí)科技與海南大學(xué)聯(lián)合<b class='flag-5'>研究成果</b>發(fā)布](https://file1.elecfans.com/web2/M00/0A/F2/wKgaomcYmtGAaEvFAAAwXlOmQgA225.png)
中移芯昇發(fā)布智能可信城市蜂窩物聯(lián)網(wǎng)基礎(chǔ)設(shè)施研究成果
![中移芯昇發(fā)布<b class='flag-5'>智能</b>可信城市蜂窩物聯(lián)網(wǎng)基礎(chǔ)設(shè)施<b class='flag-5'>研究成果</b>](https://file.elecfans.com/web2/M00/3B/01/poYBAGJGxW-AF365AAAoNNnGRTw018.png)
華為鴻蒙內(nèi)核獲中國信通院自主成熟度A級(jí)認(rèn)證
高性能嵌入式互連自主生態(tài)發(fā)展專題研討會(huì)成功舉辦
本源超導(dǎo)量子計(jì)算機(jī)自主制造鏈11類產(chǎn)品系列之九: 中國自主量子計(jì)算編程生態(tài)工具鏈
![本源超導(dǎo)量子計(jì)算機(jī)<b class='flag-5'>自主</b>制造鏈11類產(chǎn)品系列之九: 中國<b class='flag-5'>自主</b>量子計(jì)算編程生態(tài)工具鏈](https://file.elecfans.com/web2/M00/3F/9D/poYBAGJo-maAOH8MAAIB_hk2Mno583.png)
評(píng)論