7月12日,國(guó)際科技界傳來(lái)新動(dòng)態(tài),谷歌正借助其先進(jìn)的Gemini AI系統(tǒng),深化對(duì)旗下機(jī)器人的訓(xùn)練,旨在顯著提升它們的導(dǎo)航能力和任務(wù)執(zhí)行能力。DeepMind機(jī)器人團(tuán)隊(duì)最新發(fā)布的研究論文,詳細(xì)闡述了如何利用Gemini 1.5 Pro的強(qiáng)化長(zhǎng)上下文窗口功能,極大地優(yōu)化了用戶通過(guò)自然語(yǔ)言指令與RT-2機(jī)器人交互的體驗(yàn)。
這一創(chuàng)新技術(shù)的核心在于,機(jī)器人首先通過(guò)拍攝并分析家庭或辦公室等指定區(qū)域的視頻,利用Gemini 1.5 Pro的強(qiáng)大能力來(lái)“學(xué)習(xí)”并理解其所在環(huán)境。隨后,機(jī)器人能夠基于這些視覺(jué)信息,靈活運(yùn)用語(yǔ)音和/或圖像反饋,執(zhí)行用戶的復(fù)雜指令。例如,當(dāng)用戶詢問(wèn)“我在哪里可以給手機(jī)充電?”時(shí),機(jī)器人能迅速識(shí)別環(huán)境,并引導(dǎo)用戶至最近的電源插座。
據(jù)DeepMind透露,在覆蓋超過(guò)9,000平方英尺的測(cè)試區(qū)域內(nèi),這些由Gemini驅(qū)動(dòng)的機(jī)器人成功響應(yīng)并完成了50多項(xiàng)不同用戶指令,成功率高達(dá)90%,展現(xiàn)了極高的準(zhǔn)確性和效率。
更令人振奮的是,初步研究還揭示了Gemini 1.5 Pro賦予機(jī)器人的額外能力——即除了精準(zhǔn)導(dǎo)航外,還能規(guī)劃并執(zhí)行更為復(fù)雜的任務(wù)指令。例如,面對(duì)詢問(wèn)是否有特定飲料的用戶,機(jī)器人能夠自主決定前往冰箱檢查,隨后返回并報(bào)告結(jié)果,這一連串動(dòng)作展現(xiàn)了其強(qiáng)大的決策與執(zhí)行能力。
盡管在視頻演示中,機(jī)器人對(duì)每條指令的迅速確認(rèn)給人留下了深刻印象,但研究報(bào)告也誠(chéng)實(shí)地指出了背后隱藏的“秘密”——處理這些復(fù)雜指令實(shí)際上需要10至30秒的時(shí)間。這表明,盡管技術(shù)進(jìn)步顯著,但實(shí)現(xiàn)完全無(wú)縫的人機(jī)交互仍需時(shí)日。
不過(guò),這一系列的進(jìn)展無(wú)疑為我們描繪了一幅未來(lái)生活的美好圖景:或許不久的將來(lái),我們就能與這些高度智能化的機(jī)器人共享家園,讓它們幫助我們找到遺失的鑰匙、錢包,甚至是執(zhí)行更多日常生活中的瑣碎任務(wù),極大地提升生活的便捷性與舒適度。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28718瀏覽量
208744 -
谷歌
+關(guān)注
關(guān)注
27文章
6203瀏覽量
106105 -
AI
+關(guān)注
關(guān)注
87文章
31770瀏覽量
270552
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論