通用人形機(jī)器人旨在快速適應(yīng)現(xiàn)有的以人類為中心的城市和工業(yè)工作空間,處理繁瑣、重復(fù)或體力要求高的任務(wù)。這些移動機(jī)器人經(jīng)過設(shè)計,能在以人類為中心的環(huán)境中有出色的表現(xiàn),從工廠車間到醫(yī)療保健機(jī)構(gòu),它們的價值日益凸顯。
模仿學(xué)習(xí)是機(jī)器人學(xué)習(xí)的一個子集,它能讓人形機(jī)器人通過觀察和模仿人類專家的示范來獲取新技能。在真實世界中收集這些廣泛、高質(zhì)量的數(shù)據(jù)集既繁瑣又耗時,而且成本往往高得令人卻步。從物理精確的仿真環(huán)境中生成的合成數(shù)據(jù)有助于加快這一收集過程。
NVIDIA Isaac GR00T為人形機(jī)器人開發(fā)者提供機(jī)器人基礎(chǔ)模型、數(shù)據(jù)管線和仿真框架,有助于應(yīng)對人形機(jī)器人開發(fā)中所面對的這些挑戰(zhàn)。用于合成運(yùn)動生成的NVIDIA Isaac GR00T Blueprint是一個用于模仿學(xué)習(xí)的仿真工作流程,使開發(fā)者能夠從少量人類示范中生成數(shù)量呈指數(shù)級擴(kuò)增的數(shù)據(jù)集。
在本文中,我們將介紹如何通過 Apple Vision Pro 捕捉遠(yuǎn)程操作數(shù)據(jù),使用 NVIDIA Isaac GR00T 從少數(shù)人類示范中生成大量合成軌跡數(shù)據(jù)集,然后在Isaac Lab中訓(xùn)練機(jī)器人運(yùn)動策略模型。
合成運(yùn)動生成
該工作流的包括以下關(guān)鍵組成部分:
GR00T-Teleop:
NVIDIA CloudXR:連接到 Apple Vision Pro 頭戴設(shè)備,使用專門為人形機(jī)器人遠(yuǎn)程操作設(shè)計的定制 CloudXR 運(yùn)行時 ,實現(xiàn)動作的流暢傳輸 。
Isaac XR Teleop:將遠(yuǎn)程操作數(shù)據(jù)流式傳輸?shù)絅VIDIA Isaac Sim或 Isaac Lab,作為 Apple Vision Pro 的參考應(yīng)用程序。
Isaac Lab:基于 Isaac Sim 的 Isaac Lab 是一個用于機(jī)器人學(xué)習(xí)的開源模塊化框架,使用這一框架,可以實現(xiàn)訓(xùn)練機(jī)器人策略。
GR00T-Mimic:通過少量人類示范生成大量合成運(yùn)動軌跡數(shù)據(jù)。
GR00T-Gen:通過隨機(jī)化場景中的背景、光照和其他變量來增加多樣性,并通過NVIDIA Cosmos對生成的圖像進(jìn)行放大處理。(在本文中,我們不會詳細(xì)介紹 GR00T-Gen。)
圖 1.遠(yuǎn)程操作架構(gòu)
合成運(yùn)動生成管線是一個復(fù)雜的過程,旨在創(chuàng)建一個龐大且多樣化的數(shù)據(jù)集來訓(xùn)練機(jī)器人。
它從數(shù)據(jù)收集開始,在這個過程中,將使用像 Apple Vision Pro 這樣的高保真設(shè)備,在仿真環(huán)境中捕捉人類的動作和行為。Apple Vision Pro 將手部追蹤數(shù)據(jù)傳輸?shù)饺?Isaac Lab 的仿真平臺,同時仿真平臺將機(jī)器人環(huán)境的沉浸式視圖傳輸回該設(shè)備。這種設(shè)置使得機(jī)器人操作更加直觀和互動,有助于收集高質(zhì)量的遠(yuǎn)程操作數(shù)據(jù)。
圖 2.準(zhǔn)備好通過 Apple Vision Pro 進(jìn)行遠(yuǎn)程操作的機(jī)器人
Isaac Lab 中的機(jī)器人仿真畫面被傳輸?shù)?Apple Vision Pro,讓您能夠可視化機(jī)器人的環(huán)境。通過移動手部,您可以直觀地控制機(jī)器人執(zhí)行各種任務(wù)。這種設(shè)置提供了沉浸式且互動的遠(yuǎn)程操作體驗。
圖 3.Isaac Lab 中的遠(yuǎn)程操作
使用 GR00T-Mimic 生成合成軌跡
數(shù)據(jù)收集后,下一步是合成軌跡生成。使用 Isaac GR00T-Mimic 從少量人類示范中推算出大量合成運(yùn)動軌跡。
這個過程包括在示范中標(biāo)記關(guān)鍵點(diǎn),并使用插值法確保合成軌跡平滑且符合情境。然后對生成的數(shù)據(jù)進(jìn)行評估和優(yōu)化,以滿足訓(xùn)練所需的標(biāo)準(zhǔn)。
在這個示例中,我們成功生成了 1000 條合成軌跡。
a.機(jī)器人
拿起輪子
b.機(jī)器人將輪子
移到托盤
c.機(jī)器人將輪子
放到托盤上
圖 4.在 Isaac Lab 中生成的一組合成軌跡
在 Isaac Lab 中使用模仿學(xué)習(xí)進(jìn)行訓(xùn)練
最后,使用模仿學(xué)習(xí)技術(shù),利用合成數(shù)據(jù)集對機(jī)器人進(jìn)行訓(xùn)練。在這個階段,會訓(xùn)練一個策略,比如 Robomimic 套件的循環(huán)高斯混合模型(GMM),以模仿合成數(shù)據(jù)中的動作。
訓(xùn)練在比如 Isaac Lab 這樣的仿真環(huán)境中進(jìn)行,并且通過多次試驗來評估訓(xùn)練后的策略的性能。這個管線顯著減少了開發(fā)和部署機(jī)器人系統(tǒng)所需的時間和資源,使其成為機(jī)器人領(lǐng)域的一個有價值的工具。
為了展示如何使用這些數(shù)據(jù),我們訓(xùn)練了一臺帶有夾爪的 Franka 機(jī)器人,在 Isaac Lab 中執(zhí)行堆疊任務(wù)。這個夾爪類似于人形機(jī)器人的“手”。
我們使用了來自 Robomimic 套件的帶有循環(huán) GMM 策略的行為克隆方法。該策略使用了兩個隱藏維度為 400 的長短期記憶(LSTM)層。
網(wǎng)絡(luò)的輸入包括機(jī)器人末端執(zhí)行器的位姿、夾爪狀態(tài)以及相對物體的位姿,而輸出是一個用于在 Isaac Lab 中驅(qū)動機(jī)器人的增量位姿動作。
使用由 1000 次成功示范組成的數(shù)據(jù)集,并經(jīng)過 2000 次迭代,我們實現(xiàn)了大約 50 次迭代 / 秒的訓(xùn)練速度(相當(dāng)于在 NVIDIA RTX GPU 上大約 0.5 小時的訓(xùn)練時間)。在 50 次實驗的平均結(jié)果中,訓(xùn)練策略在堆疊任務(wù)中的成功率為 84%。
圖 5.在 Isaac Lab 中訓(xùn)練的夾爪
開始使用
在本文中,我們討論了通過 NVIDIA Isaac GR00T 生成合成軌跡數(shù)據(jù),加速推進(jìn)人形機(jī)器人運(yùn)動策略學(xué)習(xí)。
GR00T-Teleop 堆棧目前還處于僅限受邀用戶訪問的階段。加入人形機(jī)器人開發(fā)者計劃,以便在該堆棧進(jìn)入測試版時獲取使用權(quán)限。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28632瀏覽量
208281 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5075瀏覽量
103661 -
人形機(jī)器人
+關(guān)注
關(guān)注
3文章
495瀏覽量
16783
原文標(biāo)題:構(gòu)建人形機(jī)器人學(xué)習(xí)的合成運(yùn)動生成管線
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論