欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

【重磅】DeepMind發(fā)布通用強化學(xué)習(xí)新范式,自主機器人可學(xué)會任何任務(wù)

DPVg_AI_era ? 來源:未知 ? 作者:鄧佳佳 ? 2018-03-19 14:45 ? 次閱讀


新智元報道

來源:DeepMind

編譯:Marvin

【新智元導(dǎo)讀】DeepMind今天發(fā)表博客文章,提出一種稱為SAC-X(計劃輔助控制)的新學(xué)習(xí)范式,旨在解決讓AI以最少的先驗知識,從頭開始學(xué)習(xí)復(fù)雜控制問題的挑戰(zhàn)。這在真實環(huán)境中成功讓機械臂從頭開始學(xué)習(xí)拾放物體。研究者認(rèn)為,SAC-X是一種通用的強化學(xué)習(xí)方法,未來可以應(yīng)用于機器人以外的更廣泛領(lǐng)域。

讓孩子(甚至成年人)在使用物品之后自己收拾可能是頗有挑戰(zhàn)性的事情,但我們面臨一個更大的挑戰(zhàn):試圖讓我們的AI也這樣做。成功與否取決于AI是否掌握幾個核心的視覺運動技能:接近一個物體,抓住并舉起它,然后打開一個盒子并把物體放進(jìn)里面。使事情更復(fù)雜的是,這些技能還必須用正確的順序做。

控制任務(wù)(control tasks),例如整理桌子或堆放物體,要求agent能夠確定如何、何時以及在哪里協(xié)調(diào)它的模擬手臂和手指的9個關(guān)節(jié),以正確地移動物體,實現(xiàn)它的目標(biāo)。在任何給定一段時間里,可能的運動組合數(shù)量會非常龐大,并且需要執(zhí)行一系列正確的操作,這就構(gòu)成了一個嚴(yán)峻的探索性問題——使得這成為強化學(xué)習(xí)研究的一個特別有趣的領(lǐng)域。

獎賞塑形(reward shaping)、學(xué)徒學(xué)習(xí)(apprenticeship learning)以及示范學(xué)習(xí)等技巧可以幫助解決這個問題。但是,這些方法依賴于大量的關(guān)于任務(wù)的知識——以最少的先驗知識,從頭開始學(xué)習(xí)復(fù)雜控制問題,仍然是一個公開的挑戰(zhàn)。

DeepMind近日發(fā)表的新論文“Learning by Playing - Solving Sparse Reward Tasks from Scratch”提出一種新的學(xué)習(xí)范式,稱為“Scheduled Auxiliary Control (SAC-X)”(計劃輔助控制),旨在解決這個問題。SAC-X的想法是要從頭開始學(xué)習(xí)復(fù)雜的任務(wù),那么agent必須先學(xué)習(xí)探索和掌握一套基本的技能。就像嬰兒在學(xué)會爬行和走路之前必須先發(fā)展協(xié)調(diào)和平衡的能力一樣,向agent提供一些與簡單的技能相對應(yīng)的內(nèi)部(輔助)目標(biāo)可以增加它理解和成功執(zhí)行更復(fù)雜任務(wù)的機會。

我們在幾個模擬的和真實的機器人任務(wù)中演示了SAC-X的方法,包含各種任務(wù),例如不同類物體的堆疊問題,場地整理問題(需要將物體放入盒子)。 我們定義的輔助任務(wù)遵循一個總原則:它們鼓勵agent去探索它的感知空間( sensor space)。 例如,激活它的手指上的觸摸傳感器,感知其手腕受到的力,使其本體感受傳感器( proprioceptive sensors)中的關(guān)節(jié)角度達(dá)到最大,或強制物體在其視覺相機傳感器中移動。如果達(dá)到了目標(biāo),每個任務(wù)會關(guān)聯(lián)到一個簡單的獎勵,否則獎勵為零。

圖2:agent學(xué)習(xí)的第一件事是激活手指上的觸摸傳感器,并移動兩個物體。

圖3:模擬agent最終掌握了“堆疊”物體這個復(fù)雜任務(wù)。

然后,agent就可以自行決定它當(dāng)前的“意圖”(intention),即接下來的目標(biāo)。目標(biāo)可以是輔助任務(wù)或外部定義的目標(biāo)任務(wù)。更重要的是,agent可以通過充分利用off-policy learning來檢測并從其他任務(wù)的獎勵信號學(xué)習(xí)。例如,在拾取或移動一個物體時,agent可能會順便把它堆疊起來,從而得到“堆疊”的獎勵。由于一系列簡單的任務(wù)可以導(dǎo)致觀察到罕見的外部獎勵,所以將“意圖”進(jìn)行安排(schedule)的能力是至關(guān)重要的。這可以根據(jù)所收集到的所有相關(guān)知識創(chuàng)建一個個性化的學(xué)習(xí)課程。

事實證明,這是在如此大的一個領(lǐng)域中充分利用知識的一種有效方法,而且在只有很少的外部獎勵信號的情況下尤其有用。我們的agent通過一個 scheduling 模塊來決定遵循那個意圖。在訓(xùn)練過程中,scheduler通過一個meta-learning算法進(jìn)行優(yōu)化,該算法試圖使主任務(wù)的進(jìn)度最大化,從而顯著提高數(shù)據(jù)效率。

圖4:在探索了許多內(nèi)部輔助任務(wù)之后,agent學(xué)習(xí)如何堆疊和整理物體。

我們的評估顯示,SAC-X能夠解決我們從頭設(shè)置的所有任務(wù)——使用相同的底層輔助任務(wù)集。更令人興奮的是,我們在實驗室的一個真實的機械臂上直接利用SAC-X,成功地從頭開始學(xué)會了拾取和放置任務(wù)。過去,這一點特別具有挑戰(zhàn)性,因為真實世界中機器人的學(xué)習(xí)需要數(shù)據(jù)效率,所以主流的方法是在模擬環(huán)境中預(yù)訓(xùn)練(pre-train)一個agent,然后將agent轉(zhuǎn)移到真實的機械臂。

圖5:在真正的機械臂上,SAC-X學(xué)習(xí)如何從頭開始拾取和移動綠色方塊。它此前從未見過這一任務(wù)。

我們認(rèn)為SAC-X是從頭開始學(xué)習(xí)控制任務(wù)的重要一步,只需指定一個總體目標(biāo)。SAC-X允許你任意定義輔助任務(wù):可以基于一般性認(rèn)識(例如在個實驗中是故意激活傳感器),但最終可以包含研究人員認(rèn)為重要的任何任務(wù)。從這個角度看,SAC-X是一種通用的強化學(xué)習(xí)方法,不止是控制和機器人領(lǐng)域,可以廣泛應(yīng)用于一般的稀疏強化學(xué)習(xí)環(huán)境。

這一工作由以下研究者共同完成:Martin Riedmiller, Roland Hafner, Thomas Lampe, Michael Neunert, Jonas Degrave, Tom Van de Wiele, Volodymyr Mnih, Nicolas Heess and Tobias Springenberg.


【2018 新智元 AI 技術(shù)峰會倒計時28天】大會早鳥票已經(jīng)售罄,現(xiàn)正式進(jìn)入全額票階段。


2017 年,作為人工智能領(lǐng)域最具影響力的產(chǎn)業(yè)服務(wù)平臺——新智元成功舉辦了「新智元開源 · 生態(tài)技術(shù)峰會」和「2017AIWORLD 世界人工智能大會」。憑借超高活動人氣及行業(yè)影響力,獲得2017 年度活動行 “年度最具影響力主辦方”獎項。

其中「2017AIWORLD 世界人工智能大會」創(chuàng)人工智能領(lǐng)域活動先河,參會人次超 5000;開場視頻在騰訊視頻點播量超 100 萬;新華網(wǎng)圖文直播超 1200 萬;

2018 年的 3 月 29 日,新智元再匯 AI 之力,共筑產(chǎn)業(yè)躍遷之路,將在北京舉辦 2018 年中國 AI 開年盛典——2018 新智元 AI 技術(shù)峰會。本次峰會以 “產(chǎn)業(yè) · 躍遷” 為主題,特邀諾貝爾獎評委 德國人工智能研究中心創(chuàng)始人兼 CEO Wolfgang Wahlster 親臨現(xiàn)場與谷歌、微軟、亞馬遜、BAT、科大訊飛、京東和華為等企業(yè)重量級嘉賓,共同研討技術(shù)變革,助力領(lǐng)域融合發(fā)展。

新智元誠摯邀請關(guān)心人工智能行業(yè)發(fā)展的各界人士 3 月 29 日親臨峰會現(xiàn)場,共同參與這一跨領(lǐng)域的思維碰撞。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:【重磅】DeepMind發(fā)布通用強化學(xué)習(xí)新范式,自主機器人可學(xué)會任何任務(wù)

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    機器人“大腦+小腦”范式:算力魔方賦能智能自主導(dǎo)航

    ?在機器人技術(shù)的發(fā)展中,“大腦+小腦”的架構(gòu)模式逐漸成為推動機器人智能化的關(guān)鍵。其中, “大腦”作為機器人的核心決策單元,承擔(dān)著復(fù)雜任務(wù)規(guī)劃、環(huán)境感知和決策制定的重要角色,而“小腦”則
    的頭像 發(fā)表于 01-20 13:35 ?103次閱讀

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人的基礎(chǔ)模塊

    非常重要的地位。 先說這個自主機器人的計算系統(tǒng)。計算系統(tǒng)是自主機器人的關(guān)鍵部件。自主機器人通過智能計算系統(tǒng)與物理世界交互,自主地完成任務(wù)。通
    發(fā)表于 01-04 19:22

    【「具身智能機器人系統(tǒng)」閱讀體驗】1.初步理解具身智能

    重要。 書中還詳細(xì)介紹了支持具身智能機器人的核心技術(shù)系統(tǒng),包括自主機器人計算系統(tǒng)、感知系統(tǒng)、定位系統(tǒng)及規(guī)劃和控制系統(tǒng)。 本書共分5個部分。 第1部分(第1章和第2章)介紹具身智能機器人的背景知識。 第2部分
    發(fā)表于 12-28 21:12

    【「具身智能機器人系統(tǒng)」閱讀體驗】1.全書概覽與第一章學(xué)習(xí)

    簡單的具身智能機器人的應(yīng)用案例。具體目錄如下: 第一章學(xué)習(xí) 具身智能機器人是指能夠在無人工干預(yù)下自主執(zhí)行任務(wù)
    發(fā)表于 12-27 14:50

    《具身智能機器人系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型

    和經(jīng)驗積累,使機器人能夠自主發(fā)現(xiàn)工藝規(guī)律,優(yōu)化作業(yè)參數(shù)。家庭服務(wù)機器人則采用混合任務(wù)規(guī)劃策略:將預(yù)訓(xùn)練的基礎(chǔ)技能與實時規(guī)劃相結(jié)合,靈活應(yīng)對開放環(huán)境中的各種情況。 第9章深入探討了元
    發(fā)表于 12-24 15:03

    【「具身智能機器人系統(tǒng)」閱讀體驗】+初品的體驗

    解決許多技術(shù)的和非技術(shù)的挑戰(zhàn),如提高智能體的自主性、處理復(fù)雜環(huán)境互動的能力及確保行為的倫理和安全性。 未來的研究需要將視覺、語音和其他傳感技術(shù)與機器人技術(shù)相結(jié)合,以探索更加先進(jìn)的知識表示和記憶模塊,利用強化學(xué)習(xí)進(jìn)一步優(yōu)化決策過程
    發(fā)表于 12-20 19:17

    《具身智能機器人系統(tǒng)》第1-6章閱讀心得之具身智能機器人系統(tǒng)背景知識與基礎(chǔ)模塊

    物理交互納入智能系統(tǒng)的核心要素。 第3章是探討機器人計算系統(tǒng)。這一章節(jié)詳細(xì)闡述了自主機器人的軟硬件架構(gòu)。計算系統(tǒng)需要滿足機器人任務(wù)對算法的精度、實時性和功耗要求。書中介紹的多傳感器融合
    發(fā)表于 12-19 22:26

    《人形機器人產(chǎn)業(yè)地圖(2024)》重磅發(fā)布

    在11月29日舉辦的2024高工人形機器人年會上,高工機器人產(chǎn)業(yè)研究所(GGII)重磅發(fā)布《人形機器人產(chǎn)業(yè)地圖(2024)》(以下簡稱“產(chǎn)業(yè)
    發(fā)表于 12-02 09:17 ?1111次閱讀
    《人形<b class='flag-5'>機器人</b>產(chǎn)業(yè)地圖(2024)》<b class='flag-5'>重磅</b><b class='flag-5'>發(fā)布</b>!

    名單公布!【書籍評測活動NO.51】具身智能機器人系統(tǒng) | 了解AI的下一個浪潮!

    智能體的自主性、處理復(fù)雜環(huán)境互動的能力及確保行為的倫理和安全性。 未來的研究需要將視覺、語音和其他傳感技術(shù)與機器人技術(shù)結(jié)合,探索更加先進(jìn)的知識表示和記憶模塊,利用強化學(xué)習(xí)進(jìn)一步優(yōu)化決策過程。 具身智能
    發(fā)表于 11-11 10:20

    如何使用 PyTorch 進(jìn)行強化學(xué)習(xí)

    強化學(xué)習(xí)(Reinforcement Learning, RL)是一種機器學(xué)習(xí)方法,它通過與環(huán)境的交互來學(xué)習(xí)如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源
    的頭像 發(fā)表于 11-05 17:34 ?418次閱讀

    “0元購”智元靈犀X1機器人,軟硬件全套圖紙和代碼全公開!資料免費下載!

    10月24日,智元機器人重磅宣布,其自主研發(fā)的全棧開源機器人智元靈犀X1面向全球開發(fā)者正式開源,智元機器人再次履行了其在8月18日新品
    發(fā)表于 10-25 15:20

    地瓜機器人發(fā)布一系列通用機器人套件

    在“機器人+”浪潮的推動下,地瓜機器人近日隆重推出了一系列面向未來的軟硬件產(chǎn)品組合,旨在賦能新一代通用機器人的發(fā)展。此次發(fā)布的亮點包括旭日5智能計算芯片、RDK X5
    的頭像 發(fā)表于 09-25 15:56 ?416次閱讀

    谷歌借助Gemini AI系統(tǒng)深化對機器人的訓(xùn)練

    7月12日,國際科技界傳來新動態(tài),谷歌正借助其先進(jìn)的Gemini AI系統(tǒng),深化對旗下機器人的訓(xùn)練,旨在顯著提升它們的導(dǎo)航能力和任務(wù)執(zhí)行能力。DeepMind機器人團隊最新
    的頭像 發(fā)表于 07-12 16:29 ?688次閱讀

    Al大模型機器人

    豐富的知識儲備。它們可以涵蓋各種領(lǐng)域的知識,并能夠回答相關(guān)問題。靈活性與通用性: AI大模型機器人具有很強的靈活性和通用性,能夠處理各種類型的任務(wù)和問題。持續(xù)
    發(fā)表于 07-05 08:52

    逐際動力攜手英偉達(dá)Isaac平臺, 助力通用機器人研發(fā)

    在近日舉行的年度計算機視覺與模式識別會議(CVPR)上,英偉達(dá)發(fā)布了其最新版本的NVIDIA Isaac Sim。與此同時,逐際動力也宣布將采用這一升級版的Isaac平臺,以強化學(xué)習(xí)和提升通用機器人的泛化能力為核心目標(biāo),推動
    的頭像 發(fā)表于 06-21 09:34 ?2482次閱讀