由視覺輸入控制的機器人非常依賴于固定視角的攝像頭,這意味著它們難以在活動的情況下精確完成任務(wù)。近日,谷歌研究人員提出了一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和 LSTM 的新架構(gòu),可通過強化學(xué)習(xí)等方法在接收多個攝像頭、不同視角圖像輸入的情況下控制機械臂準確完成任務(wù)。研究人員稱,新方法可以擴展到任何類型的自動自校準任務(wù)上。
人們非常擅長在不將視點調(diào)整到某一固定或特殊位置的情況下操縱物體。這種能力(我們稱之為「視覺動作整合」)在孩童時期通過在多種情形中操縱物體而習(xí)得,并由一種利用豐富的感官信號和視覺作為反饋的自適應(yīng)糾錯機制控制。然而,在機器人學(xué)中,基于視覺的控制器很難獲得這種能力,目前來看,這種控制器都基于一種用來從固定安裝的攝像頭讀取視覺輸入數(shù)據(jù)的固定裝置。在視點大幅變化的情況下快速獲取視覺運動控制技能的能力將對自動機器人系統(tǒng)產(chǎn)生重大影響——例如,這種能力對于參與救援工作或在災(zāi)區(qū)作業(yè)的機器人來說尤其必要。
在 CVPR 2018 會議中,谷歌提交了一篇名為《Sim2Real Viewpoint Invariant Visual Servoing by Recurrent Control》的論文。在這篇論文中,谷歌研究了一種新的深度網(wǎng)絡(luò)架構(gòu)(包含兩個全卷積網(wǎng)絡(luò)和一個長短期記憶單元),該架構(gòu)從過去的動作和觀測結(jié)果中學(xué)習(xí)自我校準。其視覺適應(yīng)網(wǎng)絡(luò)(visually-adaptive network)利用由演示軌跡和強化學(xué)習(xí)目標組成的各種模擬數(shù)據(jù),能夠從各種視點控制機械臂到達視覺指示的各種目標,并且獨立于攝像機校準。
用物理機械臂實現(xiàn)視覺指示目標的視點不變操作。新方法學(xué)習(xí)了一種單一策略,通過從截然不同的攝像機視點捕獲的感官輸入來到達不同的目標。第一行顯示了視覺指示的目標。
挑戰(zhàn)
從未知視點捕獲的單一圖像中探索可控自由度(DoF)如何影響視覺運動可能不夠明確和具體。確定動作對圖像-空間運動的影響并成功地執(zhí)行預(yù)期任務(wù)需要一個對過去動作記憶的保持能力進行增強的魯棒感知系統(tǒng)。要解決這個具有挑戰(zhàn)性的問題,必須解決以下基本問題:
●如何提供適當?shù)慕?jīng)驗,讓機器人在模擬終身學(xué)習(xí)模式的純視覺觀察的基礎(chǔ)上學(xué)習(xí)自適應(yīng)行為?
●如何設(shè)計一個將魯棒感知和自適應(yīng)控制整合起來并能快速遷移到未見環(huán)境中的模型?
為了解決以上問題,研究人員設(shè)計了一種新的操縱任務(wù),給一個七自由度機械臂提供一個物體的圖像,并命令它在一系列干擾物中拿到特定的目標物體,同時每一次嘗試的視點會發(fā)生劇烈變化。采用這種做法,研究人員能夠模擬復(fù)雜行為的學(xué)習(xí)以及向未知環(huán)境的遷移。
用物理機械臂和各種攝像機視點完成到達視覺指示目標的任務(wù)。
利用模擬來學(xué)習(xí)復(fù)雜行為
收集機器人經(jīng)驗數(shù)據(jù)費時費力。在過去的一篇博文中,谷歌展示了如何通過將數(shù)據(jù)收集和試驗分配給多個機器人來擴展學(xué)習(xí)技能。盡管該方法加快了學(xué)習(xí)進度,但它仍然不適合擴展到復(fù)雜行為的學(xué)習(xí)中(如視覺自校準),后者需要將機器人置于一個包含各種視點的大型空間中。因此,研究人員選擇在模擬環(huán)境中學(xué)習(xí)此類復(fù)雜行為,在模擬中可以收集無限的機器人試驗數(shù)據(jù),并輕松將攝像頭移動到各個隨機視點。除了在模擬中快速收集數(shù)據(jù)之外,該方法還可以突破需要在機器人周圍安裝多個攝像機的硬件限制。
谷歌研究人員在模擬環(huán)境中使用域隨機化技術(shù)來學(xué)習(xí)可泛化的策略。
為了學(xué)習(xí)足以遷移到未知環(huán)境的視覺魯棒特征,研究人員使用了 Sadeghi 與 Levine 在 2017 年提出的域隨機化技術(shù)(即模擬隨機化),它可令機器人完全在模擬環(huán)境中學(xué)習(xí)基于視覺的策略,并可以推廣到現(xiàn)實世界。該技術(shù)在諸如室內(nèi)導(dǎo)航、物體定位、拾取和放置等多種機器人任務(wù)上效果良好。此外,為了學(xué)習(xí)像自校準這樣的復(fù)雜行為,研究人員利用模擬能力生成合成示例,并結(jié)合強化學(xué)習(xí)目標來學(xué)習(xí)魯棒的機械臂控制器。
使用模擬的 7 自由度機械臂實現(xiàn)視覺指示目標的視點不變操作。新方法學(xué)習(xí)了一種單一策略,可以通過不同相機視角捕捉的感官輸入實現(xiàn)不同的目標。
在控制中解構(gòu)感知
為了更快地將知識遷移到未知環(huán)境中,谷歌研究人員設(shè)計了一個深度神經(jīng)網(wǎng)絡(luò),將感知和控制相結(jié)合,并同時進行端到端訓(xùn)練,且在必要情況下允許二者分別進行訓(xùn)練。感知與控制之間的分離使遷移到未知環(huán)境的難度減小,也讓模型更加靈活和高效,因為每個部分(即「感知」和「控制」)都可以單獨適應(yīng)僅有少量數(shù)據(jù)的新環(huán)境。另外,雖然神經(jīng)網(wǎng)絡(luò)中的控制部分完全由模擬數(shù)據(jù)進行訓(xùn)練,但感知部分經(jīng)過物體邊界框收集的少量靜態(tài)圖像補充了輸入,無需讓物理機器人收集完整的動作序列軌跡。在實踐中,谷歌研究人員只用了來自 22 張圖像的 76 個對象邊界框來微調(diào)網(wǎng)絡(luò)的感知部分。
真實世界的機器人和移動攝像頭設(shè)置。第一行展示了場景布置,第二行顯示了機器人接收到的視覺感官輸入。
早期結(jié)果
谷歌研究人員在物理機器人和真實物體上測試了視覺適應(yīng)版本的網(wǎng)絡(luò),這些物體的外形與模擬環(huán)境中使用的完全不同。在實驗中,桌子上會出現(xiàn)一個或兩個物體:「見過的物體」(如下圖所示)用于視覺適應(yīng),實驗中使用的是小型靜態(tài)真實圖像集。在視覺適應(yīng)期間不會看到「未見過的物體」。在測試中,機械臂被引導(dǎo)從各個視點到達視覺指示目標物體。對于雙對象實驗,第二個對象用于讓機械臂產(chǎn)生「混淆」。因為純模擬網(wǎng)絡(luò)具有良好的泛化能力(因為它是在域隨機技術(shù)之上進行訓(xùn)練的),模型的網(wǎng)絡(luò)架構(gòu)非常靈活,因此雖然實驗中僅收集了非常少量的真實靜態(tài)視覺數(shù)據(jù)用于視覺適應(yīng),但控制器的表現(xiàn)仍然有了很大提升。
在視覺特征和少量真實圖像進行適應(yīng)之后,模型性能提高了 10% 以上。其中所有用到的真實物體都與模擬中看到的截然不同。
谷歌研究人員認為,學(xué)習(xí)在線視覺自適應(yīng)是一個重要而具有挑戰(zhàn)性的問題,這一方向的目標是學(xué)習(xí)到可在多樣化和非結(jié)構(gòu)化的現(xiàn)實世界中運行的機器人所需要的通用化策略。新方法可以擴展到任何類型的自動自我校準上。
-
機器人
+關(guān)注
關(guān)注
211文章
28679瀏覽量
208597 -
谷歌
+關(guān)注
關(guān)注
27文章
6202瀏覽量
106064 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4781瀏覽量
101215
原文標題:資訊 | 谷歌提出Sim2Real:讓機器人像人類一樣觀察世界
文章出處:【微信號:SRA2009,微信公眾號:深圳市機器人協(xié)會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論