基礎(chǔ)模型 (Foundation Models) 已經(jīng)在過(guò)去幾年里重塑了自然語(yǔ)言處理 (NLP) 和計(jì)算機(jī)視覺(jué) (CV) 研究的格局,那么基礎(chǔ)模型能為機(jī)器人帶來(lái)怎樣的可能性?這篇綜述或許有你想要的答案。
機(jī)器人是一種擁有無(wú)盡可能性的技術(shù),尤其是當(dāng)搭配了智能技術(shù)時(shí)。近段時(shí)間創(chuàng)造了許多變革性應(yīng)用的大模型有望成為機(jī)器人的智慧大腦,幫助機(jī)器人感知和理解這個(gè)世界并制定決策和進(jìn)行規(guī)劃。 ? 近日,CMU 的 Yonatan Bisk 和 Google DeepMind 的夏斐(Fei Xia)領(lǐng)導(dǎo)的一個(gè)聯(lián)合團(tuán)隊(duì)發(fā)布了一篇綜述報(bào)告,介紹了基礎(chǔ)模型在機(jī)器人領(lǐng)域的應(yīng)用和發(fā)展情況。報(bào)告的 first aurthor 是 CMU 的博士四年級(jí)學(xué)生胡亞飛(Yafei Hu),他的研究集中在機(jī)器人和人工智能的交叉應(yīng)用上。與他合作的是謝泉廷(Quanting Xie),專注于通過(guò)基礎(chǔ)模型探索具身智能(embodied intelligence)。
開發(fā)能自主適應(yīng)不同環(huán)境的機(jī)器人是人類一直以來(lái)的一個(gè)夢(mèng)想,但這卻是一條漫長(zhǎng)且充滿挑戰(zhàn)的道路。之前,利用傳統(tǒng)深度學(xué)習(xí)方法的機(jī)器人感知系統(tǒng)通常需要大量有標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練監(jiān)督學(xué)習(xí)模型,而如果通過(guò)眾包方式來(lái)標(biāo)注大型數(shù)據(jù)集,成本又非常高。 ? 此外,由于經(jīng)典監(jiān)督學(xué)習(xí)方法的泛化能力有限,為了將這些模型部署到具體的場(chǎng)景或任務(wù),這些訓(xùn)練得到的模型通常還需要精心設(shè)計(jì)的領(lǐng)域適應(yīng)技術(shù),而這又通常需要進(jìn)一步的數(shù)據(jù)收集和標(biāo)注步驟。類似地,經(jīng)典的機(jī)器人規(guī)劃和控制方法通常需要仔細(xì)地建模世界、智能體自身的動(dòng)態(tài)和 / 或其它智能體的動(dòng)態(tài)。這些模型通常是針對(duì)各個(gè)具體環(huán)境或任務(wù)構(gòu)建的,而當(dāng)情況有變時(shí),就需要重新構(gòu)建模型。這說(shuō)明經(jīng)典模型的遷移性能也有限。 ?
事實(shí)上,對(duì)于很多用例,構(gòu)建有效模型的成本要么太高,要么就完全無(wú)法辦到。盡管基于深度(強(qiáng)化)學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃和控制方法有助于緩解這些問(wèn)題,但它們?nèi)耘f會(huì)受到分布移位(distribution shift)和泛化能力降低的影響。 ? 雖然在開發(fā)通用型機(jī)器人系統(tǒng)上正面臨諸多挑戰(zhàn),但自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域近來(lái)卻進(jìn)展迅猛,其中包括用于 NLP 的大型語(yǔ)言模型(LLM)、用于高保真圖像生成的擴(kuò)散模型、用于零樣本 / 少樣本生成等 CV 任務(wù)的能力強(qiáng)大的視覺(jué)模型和視覺(jué)語(yǔ)言模型。
所謂的「基礎(chǔ)模型(foundation model)」其實(shí)就是大型預(yù)訓(xùn)練模型(LPTM)。它們具備強(qiáng)大的視覺(jué)和語(yǔ)言能力。近來(lái)這些模型也已經(jīng)在機(jī)器人領(lǐng)域得到應(yīng)用,并有望賦予機(jī)器人系統(tǒng)開放世界感知、任務(wù)規(guī)劃甚至運(yùn)動(dòng)控制能力。除了將現(xiàn)有的視覺(jué)和 / 或語(yǔ)言基礎(chǔ)模型用于機(jī)器人領(lǐng)域,也有研究團(tuán)隊(duì)正針對(duì)機(jī)器人任務(wù)開發(fā)基礎(chǔ)模型,比如用于操控的動(dòng)作模型或用于導(dǎo)航的運(yùn)動(dòng)規(guī)劃模型。這些機(jī)器人基礎(chǔ)模型展現(xiàn)出了強(qiáng)大的泛化能力,能適應(yīng)不同的任務(wù)甚至具身方案。也有研究者直接將視覺(jué) / 語(yǔ)言基礎(chǔ)模型用于機(jī)器人任務(wù),這展現(xiàn)出了將不同機(jī)器人模塊融合成單一統(tǒng)一模型的可能性。 ? 盡管視覺(jué)和語(yǔ)言基礎(chǔ)模型在機(jī)器人領(lǐng)域前景可期,全新的機(jī)器人基礎(chǔ)模型也正在開發(fā)中,但機(jī)器人領(lǐng)域仍有許多挑戰(zhàn)難以解決。 ?
從實(shí)際部署角度看,模型往往是不可復(fù)現(xiàn)的,無(wú)法泛化到不同的機(jī)器人形態(tài)(多具身泛化)或難以準(zhǔn)確理解環(huán)境中的哪些行為是可行的(或可接受的)。此外,大多數(shù)研究使用的都是基于 Transformer 的架構(gòu),關(guān)注的重點(diǎn)是對(duì)物體和場(chǎng)景的語(yǔ)義感知、任務(wù)層面的規(guī)劃、控制。而機(jī)器人系統(tǒng)的其它部分則少有人研究,比如針對(duì)世界動(dòng)態(tài)的基礎(chǔ)模型或可以執(zhí)行符號(hào)推理的基礎(chǔ)模型。這些都需要跨領(lǐng)域泛化能力。 ? 最后,我們也需要更多大型真實(shí)世界數(shù)據(jù)以及支持多樣化機(jī)器人任務(wù)的高保真度模擬器。 ? 這篇綜述論文總結(jié)了機(jī)器人領(lǐng)域使用的基礎(chǔ)模型,目標(biāo)是理解基礎(chǔ)模型能以怎樣的方式幫助解決或緩解機(jī)器人領(lǐng)域的核心挑戰(zhàn)。 ? 在這篇綜述中,研究者使用的「用于機(jī)器人的基礎(chǔ)模型(foundation models for robotics)」這一術(shù)語(yǔ)涵蓋兩個(gè)方面: (1) 用于機(jī)器人的現(xiàn)有的(主要)視覺(jué)和語(yǔ)言模型,主要是通過(guò)零樣本和上下文學(xué)習(xí); (2) 使用機(jī)器人生成的數(shù)據(jù)專門開發(fā)和利用機(jī)器人基礎(chǔ)模型,以解決機(jī)器人任務(wù)。 他們總結(jié)了用于機(jī)器人的基礎(chǔ)模型的相關(guān)論文中的方法,并對(duì)這些論文的實(shí)驗(yàn)結(jié)果進(jìn)行了元分析(meta-analysis)。
綜述的整體結(jié)構(gòu)
01??預(yù)備知識(shí)
為了幫助讀者更好地理解這篇綜述的內(nèi)容,該團(tuán)隊(duì)首先給出了一節(jié)預(yù)備知識(shí)內(nèi)容。 他們首先將介紹機(jī)器人學(xué)的基礎(chǔ)知識(shí)以及當(dāng)前最佳技術(shù)。這里主要聚焦于基礎(chǔ)模型時(shí)代之前機(jī)器人領(lǐng)域使用的方法。這里進(jìn)行簡(jiǎn)單說(shuō)明,詳情參閱原論文。
·?機(jī)器人的主要組件可分為感知、決策和規(guī)劃、動(dòng)作生成三大部分。該團(tuán)隊(duì)將機(jī)器人感知分為被動(dòng)感知、主動(dòng)感知和狀態(tài)估計(jì)。
·?在機(jī)器人決策和規(guī)劃部分,研究者分經(jīng)典規(guī)劃方法和基于學(xué)習(xí)的規(guī)劃方法進(jìn)行了介紹。
·?機(jī)器的動(dòng)作生成也有經(jīng)典控制方法和基于學(xué)習(xí)的控制方法。
接下來(lái)該團(tuán)隊(duì)又會(huì)介紹基礎(chǔ)模型并主要集中在 NLP 和 CV 領(lǐng)域,涉及的模型包括:LLM、VLM、視覺(jué)基礎(chǔ)模型、文本條件式圖像生成模型。 ? 02??機(jī)器人領(lǐng)域面臨的挑戰(zhàn) ? 典型機(jī)器人系統(tǒng)的不同模塊所面臨的五大核心挑戰(zhàn)。圖 3 展示了這五大挑戰(zhàn)的分類情況。
2.1 泛化
機(jī)器人系統(tǒng)往往難以準(zhǔn)確地感知和理解其環(huán)境。它們也沒(méi)有能力將在一個(gè)任務(wù)上的訓(xùn)練成果泛化到另一個(gè)任務(wù),這會(huì)進(jìn)一步限制它們?cè)谡鎸?shí)世界中的實(shí)用性。此外,由于機(jī)器人硬件不同,將模型遷移用于不同形態(tài)的機(jī)器人也很困難。通過(guò)將基礎(chǔ)模型用于機(jī)器人,可以部分地解決泛化問(wèn)題。而在不同機(jī)器人形態(tài)上泛化這樣更進(jìn)一步的問(wèn)題還有待解答。
? 2.2 數(shù)據(jù)稀缺
為了開發(fā)出可靠的機(jī)器人模型,大規(guī)模的高質(zhì)量數(shù)據(jù)至關(guān)重要。人們已經(jīng)在努力嘗試從現(xiàn)實(shí)世界收集大規(guī)模數(shù)據(jù)集,包括自動(dòng)駕駛、機(jī)器人操作軌跡等。并且從人類演示收集機(jī)器人數(shù)據(jù)的成本很高。不過(guò),由于任務(wù)和環(huán)境的多樣性,在現(xiàn)實(shí)世界收集足夠且廣泛的數(shù)據(jù)的過(guò)程還會(huì)更加復(fù)雜。在現(xiàn)實(shí)世界收集數(shù)據(jù)還會(huì)有安全方面的疑慮。另外,在現(xiàn)實(shí)世界中,大規(guī)模收集數(shù)據(jù)非常困難,而要收集到訓(xùn)練基礎(chǔ)模型所使用的互聯(lián)網(wǎng)規(guī)模級(jí)的圖像/文本數(shù)據(jù),那就更困難了。 ?
為了解決這些挑戰(zhàn),許多研究工作都嘗試了在模擬環(huán)境中生成合成數(shù)據(jù)。這些模擬能提供真實(shí)感很強(qiáng)的虛擬世界,讓機(jī)器人可以在接近真實(shí)的場(chǎng)景中學(xué)習(xí)和使用自己的技能。但是,使用模擬環(huán)境也有局限性,尤其是在物體的多樣性方面,這使得所學(xué)到的技能難以直接用于真實(shí)世界情況。 ? 一種頗具潛力的方法是協(xié)作式數(shù)據(jù)收集,即將不同實(shí)驗(yàn)室環(huán)境和機(jī)器人類型的數(shù)據(jù)收集到一起,如圖 4a 所示。但是,該團(tuán)隊(duì)深度研究了 Open-X Embodiment Dataset,發(fā)現(xiàn)在數(shù)據(jù)類型可用性方面還存在一些局限性。
2.3 模型和原語(yǔ)要求
經(jīng)典的規(guī)劃和控制方法通常需要精心設(shè)計(jì)的環(huán)境和機(jī)器人模型。之前的基于學(xué)習(xí)的方法(如模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí))是以端到端的方式訓(xùn)練策略,也就是直接根據(jù)感官輸入獲取控制輸出,這樣能避免構(gòu)建和使用模型。這些方法能部分解決依賴明確模型的問(wèn)題,但它們往往難以泛化用于不同的環(huán)境和任務(wù)。 ? 這就引出了兩個(gè)問(wèn)題:(1) 怎么學(xué)習(xí)能很好泛化的與模型無(wú)關(guān)的策略?(2) 怎么學(xué)習(xí)好的世界模型,以便應(yīng)用經(jīng)典的基于模型的方法? ?
2.4 任務(wù)規(guī)范 ? 為了得到通用型智能體,一大關(guān)鍵挑戰(zhàn)是理解任務(wù)規(guī)范并將其根植于機(jī)器人對(duì)世界的當(dāng)前理解中。通常而言,這些任務(wù)規(guī)范由用戶提供,但用戶只能有限地理解機(jī)器人的認(rèn)知和物理能力的局限性。這會(huì)帶來(lái)很多問(wèn)題,包括能為這些任務(wù)規(guī)范提供什么樣的最佳實(shí)踐,還有起草這些規(guī)范是否足夠自然和簡(jiǎn)單?;跈C(jī)器人對(duì)自身能力的理解,理解和解決任務(wù)規(guī)范中的模糊性也充滿挑戰(zhàn)。 ?
2.5 不確定性和安全性 ? 為了在現(xiàn)實(shí)世界中部署機(jī)器人,一大關(guān)鍵挑戰(zhàn)是處理環(huán)境和任務(wù)規(guī)范中固有的不確定性。根據(jù)來(lái)源的不同,不確定性可以分為認(rèn)知不確定性(由缺乏知識(shí)導(dǎo)致不確定)和偶然不確定性(環(huán)境中固有的噪聲)。 ? 不確定性量化(UQ)的成本可能會(huì)高得讓研究和應(yīng)用難以為繼,也可能讓下游任務(wù)無(wú)法被最優(yōu)地解決。有鑒于基礎(chǔ)模型大規(guī)模過(guò)度參數(shù)化的性質(zhì),為了在不犧牲模型泛化性能的同時(shí)實(shí)現(xiàn)可擴(kuò)展性,提供能保留訓(xùn)練方案同時(shí)又盡可能不改變底層架構(gòu)的 UQ 方法至關(guān)重要。設(shè)計(jì)能提供對(duì)自身行為的可靠置信度估計(jì),并反過(guò)來(lái)智能地請(qǐng)求清晰說(shuō)明反饋的機(jī)器人仍然是一個(gè)尚未解決的挑戰(zhàn)。 ? 近來(lái)雖有一些進(jìn)展,但要確保機(jī)器人有能力學(xué)習(xí)經(jīng)驗(yàn),從而在全新環(huán)境中微調(diào)自己的策略并確保安全,這一點(diǎn)還依然充滿挑戰(zhàn)。
? 03??當(dāng)前研究方法概況 ? 本文還總結(jié)了用于機(jī)器人的基礎(chǔ)模型的當(dāng)前研究方法。該團(tuán)隊(duì)將機(jī)器人領(lǐng)域使用的基礎(chǔ)模型分成了兩大類:用于機(jī)器人的基礎(chǔ)模型和機(jī)器人基礎(chǔ)模型(RFM)。 ? 用于機(jī)器人的基礎(chǔ)模型主要是指以零樣本的方式將視覺(jué)和語(yǔ)言基礎(chǔ)模型用于機(jī)器人,也就是說(shuō)無(wú)需額外的微調(diào)或訓(xùn)練。機(jī)器人基礎(chǔ)模型則可能使用視覺(jué) - 語(yǔ)言預(yù)訓(xùn)練初始化來(lái)進(jìn)行熱啟動(dòng)和 / 或直接在機(jī)器人數(shù)據(jù)集上訓(xùn)練模型。
分類詳情
3.1 用于機(jī)器人的基礎(chǔ)模型
這一部分關(guān)注的是視覺(jué)和語(yǔ)言基礎(chǔ)模型在機(jī)器人領(lǐng)域的零樣本應(yīng)用。這主要包括將 VLM 以零樣本方式部署到機(jī)器人感知應(yīng)用中,將 LLM 的上下文學(xué)習(xí)能力用于任務(wù)層面和運(yùn)動(dòng)層面的規(guī)劃以及動(dòng)作生成。圖 6 展示了一些代表性的研究工作。
3.2 機(jī)器人基礎(chǔ)模型(RFM)
隨著包含來(lái)自真實(shí)機(jī)器人的狀態(tài)-動(dòng)作對(duì)的機(jī)器人數(shù)據(jù)集的增長(zhǎng),機(jī)器人基礎(chǔ)模型(RFM)類別同樣變得越來(lái)越有可能成功。這些模型的特點(diǎn)是使用了機(jī)器人數(shù)據(jù)來(lái)訓(xùn)練模型解決機(jī)器人任務(wù)。 ? 研究團(tuán)隊(duì)總結(jié)和討論了不同類型的 RFM。首先是能在單一機(jī)器人模塊中執(zhí)行一類任務(wù)的 RFM,這也被稱為單目標(biāo)機(jī)器人基礎(chǔ)模型。比如能生成控制機(jī)器人的低層級(jí)動(dòng)作的 RFM 或可以生成更高層運(yùn)動(dòng)規(guī)劃的模型。在文章中還會(huì)介紹能在多個(gè)機(jī)器人模塊中執(zhí)行任務(wù)的 RFM,也就是能執(zhí)行感知、控制甚至非機(jī)器人任務(wù)的通用模型。 ? 3.3 基礎(chǔ)模型能怎樣幫助解決機(jī)器人挑戰(zhàn)? ? 前文列出了機(jī)器人領(lǐng)域面臨的五大挑戰(zhàn)。這里將介紹基礎(chǔ)模型可以怎樣幫助解決這些挑戰(zhàn)。 ? 所有與視覺(jué)信息相關(guān)的基礎(chǔ)模型(如 VFM、VLM 和 VGM)都可用于機(jī)器人的感知模塊。而 LLM 的功能更多樣,可用于規(guī)劃和控制。機(jī)器人基礎(chǔ)模型(RFM)通常用于規(guī)劃和動(dòng)作生成模塊。表 1 總結(jié)了解決不同機(jī)器人挑戰(zhàn)的基礎(chǔ)模型。
從表中可以看到,所有基礎(chǔ)模型都擅長(zhǎng)泛化各種機(jī)器人模塊的任務(wù)。LLM 尤其擅長(zhǎng)任務(wù)規(guī)范。另一方面,RFM 擅長(zhǎng)應(yīng)對(duì)動(dòng)態(tài)模型的挑戰(zhàn),因?yàn)榇蠖鄶?shù) RFM 都是無(wú)模型方法。對(duì)于機(jī)器人感知來(lái)說(shuō),泛化能力和模型的挑戰(zhàn)是相互耦合的,因?yàn)槿绻兄P鸵呀?jīng)具有很好的泛化能力,就不需要獲取更多數(shù)據(jù)來(lái)執(zhí)行領(lǐng)域適應(yīng)或額外微調(diào)。 另外,在安全挑戰(zhàn)方面還缺乏研究,這會(huì)是一個(gè)重要的未來(lái)研究方向。 ? 04??當(dāng)前的實(shí)驗(yàn)和評(píng)估概況 ? 這一部分總結(jié)了當(dāng)前研究成果的數(shù)據(jù)集、基準(zhǔn)和實(shí)驗(yàn)。 ? 4.1 數(shù)據(jù)集和基準(zhǔn) 僅依靠從語(yǔ)言和視覺(jué)數(shù)據(jù)集學(xué)到的知識(shí)是存在局限的。正如一些研究成果表明的那樣,摩擦力和重量等一些概念無(wú)法僅通過(guò)這些模態(tài)輕松學(xué)習(xí)到。 ? 因此,為了讓機(jī)器人智能體能更好地理解世界,研究社區(qū)不僅在適應(yīng)來(lái)自語(yǔ)言和視覺(jué)領(lǐng)域的基礎(chǔ)模型,也在推進(jìn)開發(fā)用于訓(xùn)練和微調(diào)這些模型的大型多樣化多模態(tài)機(jī)器人數(shù)據(jù)集。 ? 目前這些工作分為兩大方向:從現(xiàn)實(shí)世界收集數(shù)據(jù)以及從模擬世界收集數(shù)據(jù)再將其遷移到現(xiàn)實(shí)世界。每個(gè)方向都各有優(yōu)劣。其中從現(xiàn)實(shí)世界收集的數(shù)據(jù)集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。而常用的模擬器有 Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等。 ? 4.2 對(duì)當(dāng)前方法的評(píng)估分析(Meta-Analysis) ? 該團(tuán)隊(duì)的另一大貢獻(xiàn)是對(duì)本綜述報(bào)告中提到的論文中的實(shí)驗(yàn)進(jìn)行了元分析,這可以為理清以下問(wèn)題有所幫助: ?
1)人們研究解決的是哪些任務(wù)?
2)訓(xùn)練模型使用了哪些數(shù)據(jù)集或模擬器?測(cè)試用的機(jī)器人平臺(tái)有哪些?
3)研究社區(qū)使用了哪些基礎(chǔ)模型?解決任務(wù)的效果如何?
4)這些方法中更常使用哪些基礎(chǔ)模型?
表 2-7 和圖 11 給出了分析結(jié)果。
該團(tuán)隊(duì)通過(guò) Meta-analysis 得到的一些主要觀察:
·?研究社區(qū)對(duì)機(jī)器人操作任務(wù)(Manipulation)的關(guān)注不平衡
·?泛化能力(Generalization)和穩(wěn)健性需要提升
·?低層動(dòng)作(Low-level Control)的探索很有限
·?控制頻率太低(<15Hz),無(wú)法部署在真實(shí)機(jī)器人中(一般需要 100Hz)
·?缺乏統(tǒng)一的測(cè)試基準(zhǔn)(Metrics)和測(cè)試平臺(tái)(Simulation or Hardware),使得對(duì)比變得非常困難。
05??討論和未來(lái)方向
該團(tuán)隊(duì)總結(jié)了一些仍待解決的挑戰(zhàn)和值得討論的研究方向:
·?如何為機(jī)器人具身設(shè)定標(biāo)準(zhǔn)基礎(chǔ)(grounding)?
·?安全(Safety)和不確定性(Uncertainty)?
·?端到端方法(end-to-end)和模塊化(Modular)方法是否無(wú)法兼容?
·?對(duì)具身的物理變化的適應(yīng)能力
·?世界模型(World Model)方法還是與模型無(wú)關(guān)的方法?
·?新型機(jī)器人平臺(tái)和多感官信息
·?持續(xù)學(xué)習(xí)(Continue Learning)
·?標(biāo)準(zhǔn)化和可復(fù)現(xiàn)能力(Reproducibility)
審核編輯:黃飛
評(píng)論
查看更多