欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI提出了一種方法,能夠?yàn)閺?fù)雜任務(wù)生成訓(xùn)練信號(hào)

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-10-26 09:34 ? 次閱讀

編者按:很多現(xiàn)實(shí)中的任務(wù)都有著復(fù)雜的目標(biāo)或者很難詳細(xì)表述出的目標(biāo),這就很難衡量機(jī)器在此任務(wù)上的表現(xiàn)結(jié)果。其中一種解決辦法是,人類通過(guò)演示或判斷提供訓(xùn)練信號(hào),但是這種方法在復(fù)雜情況下很容易失效?,F(xiàn)在,OpenAI提出了一種方法,能夠?yàn)閺?fù)雜任務(wù)生成訓(xùn)練信號(hào)。以下是論智對(duì)原文的編譯。

我們提出的技術(shù)稱作迭代擴(kuò)增(iterated amplification),它能讓我們清楚的了解超越了人類能力的復(fù)雜行為和目標(biāo)。與提供標(biāo)簽數(shù)據(jù)或獎(jiǎng)勵(lì)函數(shù)不同,我們的方法是將一個(gè)任務(wù)分解成多個(gè)更簡(jiǎn)單的小任務(wù)。盡管這一想法還處在初級(jí)階段,而且一直在簡(jiǎn)單的游戲算法中進(jìn)行了實(shí)驗(yàn),不過(guò)我們還是決定分享出它的初期狀態(tài),因?yàn)槲覀冋J(rèn)為它將是保證AI安全非常有用的方法。

論文地址:arxiv.org/abs/1810.08575

如果我們想訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)執(zhí)行任務(wù),就需要一個(gè)訓(xùn)練信號(hào),這是一種衡量系統(tǒng)表現(xiàn)的方法,從而能幫助它更好地學(xué)習(xí)。例如,監(jiān)督學(xué)習(xí)中的標(biāo)簽或強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)都可以看作訓(xùn)練信號(hào)。機(jī)器學(xué)習(xí)的組織規(guī)則通常假設(shè)一種訓(xùn)練信號(hào)已經(jīng)有現(xiàn)成的了,我們應(yīng)該關(guān)注從中學(xué)習(xí),但是事實(shí)上,訓(xùn)練信號(hào)必須從別處得到。如果沒(méi)有訓(xùn)練信號(hào),就無(wú)法學(xué)習(xí)任務(wù)。如果得到了錯(cuò)誤的訓(xùn)練信號(hào),就會(huì)得到錯(cuò)誤、甚至危險(xiǎn)的行為。所以,提高生成訓(xùn)練信號(hào)的能力對(duì)學(xué)習(xí)新任務(wù)和AI安全性都是有利的。

目前我們是如何生成訓(xùn)練信號(hào)的呢?有時(shí),我們想實(shí)現(xiàn)的目標(biāo)可以用算法進(jìn)行評(píng)估,例如在圍棋比賽中計(jì)算得分或者是否成功得到了一定的分?jǐn)?shù)。大多數(shù)現(xiàn)實(shí)任務(wù)都不適合算法訓(xùn)練信號(hào),但是通常我們可以通過(guò)人類執(zhí)行任務(wù)或判斷AI的性能獲得訓(xùn)練信號(hào)。但是大多數(shù)任務(wù)都很復(fù)雜,人類無(wú)法進(jìn)行判斷或很好地執(zhí)行,它們可能具有復(fù)雜的轉(zhuǎn)接系統(tǒng)或者有多種安全問(wèn)題。

迭代擴(kuò)增就是為第二種類型的任務(wù)設(shè)計(jì)的生成訓(xùn)練信號(hào)的方法。換句話說(shuō),雖然人類不能直接進(jìn)行全部任務(wù),但是我們假設(shè)他可以清楚地辨別某種任務(wù)中的各種組成部分。例如,在計(jì)算機(jī)的網(wǎng)絡(luò)案例中,人類可以將“保護(hù)服務(wù)器和路由器”的任務(wù)分解成“了解服務(wù)器受到的攻擊”、“了解路由器受到的攻擊”以及“這兩種攻擊如何交互”。另外,我們假設(shè)人類可以完成任務(wù)的一些很小實(shí)例,例如“辨別日志文件中可疑的特定代碼”。如果這些可以實(shí)現(xiàn),那么我們就能通過(guò)人類在小任務(wù)上的訓(xùn)練信號(hào)搭建大型任務(wù)的訓(xùn)練信號(hào)。

在我們實(shí)施迭代擴(kuò)增的過(guò)程中,我們首先對(duì)小的子任務(wù)進(jìn)行采樣,訓(xùn)練AI系統(tǒng)模擬人類示范完成任務(wù)。之后,我們開(kāi)始收集稍大型的任務(wù),解決的方法是先讓人們將其分為小部分,經(jīng)過(guò)訓(xùn)練的AI就能解決這些小問(wèn)題。這種方法常用于稍困難的任務(wù)中,其中加入了人類的幫助,作為訓(xùn)練信號(hào)來(lái)訓(xùn)練AI系統(tǒng)解決多層任務(wù)。之后在解決更復(fù)雜的任務(wù)時(shí),重復(fù)搭建這樣的訓(xùn)練模型即可。如果這一過(guò)程可行,最終就能生成一個(gè)完全自動(dòng)的解決復(fù)雜任務(wù)的系統(tǒng),不論初期是否有直接的訓(xùn)練信號(hào)。這一過(guò)程有點(diǎn)像AlphaGo Zero中使用的expert iteration,只不過(guò)expert iteration是對(duì)現(xiàn)有的訓(xùn)練信號(hào)進(jìn)行強(qiáng)化,而我們的iterated amplification是從零創(chuàng)造訓(xùn)練信號(hào)。它還類似于最近的幾種學(xué)習(xí)算法,例如在測(cè)試時(shí)利用問(wèn)題分解解決某個(gè)任務(wù),但是不同的是它是在沒(méi)有先驗(yàn)訓(xùn)練信號(hào)的情況下操作的。

實(shí)驗(yàn)

基于此前研究AI辯論的經(jīng)驗(yàn),我們認(rèn)為直接處理超越人類尺度的任務(wù)對(duì)一個(gè)原型項(xiàng)目來(lái)說(shuō)太難了。同時(shí),利用人類的實(shí)際行為作為訓(xùn)練信號(hào)也比較復(fù)雜,所以我們還沒(méi)有解決這一點(diǎn)。在我們的第一個(gè)實(shí)驗(yàn)中,我們嘗試擴(kuò)大一個(gè)算法訓(xùn)練信號(hào),來(lái)證明iterated amplification可以在這一簡(jiǎn)單的設(shè)置上工作。我們同樣將注意力限制在監(jiān)督學(xué)習(xí)上。

我們?cè)谖鍌€(gè)不同的玩具算法任務(wù)中測(cè)試了這種方法,這些任務(wù)都有直接的算法解決方案,但我們假裝不知道(例如,尋找圖中兩點(diǎn)之間的最短路線),不過(guò),若想把每個(gè)片段手動(dòng)組合起來(lái)就需要大量精力。我們使用迭代擴(kuò)增來(lái)學(xué)習(xí)只使用片段作為訓(xùn)練信號(hào)的直接算法,從而模擬人類知道如何組合解決方法片段、但沒(méi)有直接的訓(xùn)練信號(hào)的情況。

在這五個(gè)任務(wù)中(排列供電、順序分配、通配符搜索、最短路徑查詢以及聯(lián)合查找),結(jié)果與直接通過(guò)監(jiān)督學(xué)習(xí)解決的任務(wù)表現(xiàn)相當(dāng)。

擴(kuò)增方法和此前對(duì)AI安全的辯論研究有很多相似特征。和辯論相似的是,它也是訓(xùn)練模型在人類無(wú)法完成的任務(wù)上直接執(zhí)行或判斷,通過(guò)迭代過(guò)程讓人類提供間接的監(jiān)督,不過(guò)具體方法并不相同。未來(lái),我們會(huì)加入人類的反饋機(jī)制。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4349

    瀏覽量

    63027
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8449

    瀏覽量

    133135

原文標(biāo)題:任務(wù)太龐大?OpenAI用“迭代擴(kuò)增”學(xué)習(xí)復(fù)雜任務(wù)

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    淺談一種高斯隨機(jī)噪聲生成方法

    本文提出了一種面向硬件的均值、方差的高斯隨機(jī)噪聲生成方法。
    發(fā)表于 06-03 07:05

    探索一種降低ViT模型訓(xùn)練成本的方法

    (1 GPU)和時(shí)間(24小時(shí))資源下從頭開(kāi)始訓(xùn)練ViT模型。首先,提出了一種向ViT架構(gòu)添加局部性的有效方法。其次,開(kāi)發(fā)了一種新的圖像大小
    發(fā)表于 11-24 14:56

    μClinux下實(shí)時(shí)任務(wù)一種實(shí)現(xiàn)方法

    文中以ARM7 TDMI 處理器為例,闡述了μClinux 進(jìn)程調(diào)度的原理。根據(jù)該原理,提出了一種在μClinux 平臺(tái)下實(shí)現(xiàn)實(shí)時(shí)任務(wù)的設(shè)計(jì)方法,這
    發(fā)表于 08-29 09:19 ?11次下載

    得到模擬應(yīng)用設(shè)計(jì)經(jīng)驗(yàn)的一種方法

    得到模擬應(yīng)用設(shè)計(jì)經(jīng)驗(yàn)的一種方法
    發(fā)表于 01-24 16:29 ?8次下載

    關(guān)于實(shí)時(shí)操作系統(tǒng)中任務(wù)間通信的一種方法

    關(guān)于實(shí)時(shí)操作系統(tǒng)中任務(wù)間通信的一種方法
    發(fā)表于 09-03 11:45 ?3次下載
    關(guān)于實(shí)時(shí)操作系統(tǒng)中<b class='flag-5'>任務(wù)</b>間通信的<b class='flag-5'>一種方法</b>

    DSP硬件驅(qū)動(dòng)程序的一種方法

    DSP硬件驅(qū)動(dòng)程序的一種方法
    發(fā)表于 10-19 10:48 ?1次下載
    DSP硬件驅(qū)動(dòng)程序的<b class='flag-5'>一種方法</b>

    一種新的DEA公共權(quán)重生成方法

    針對(duì)傳統(tǒng)數(shù)據(jù)包絡(luò)分析(DEA)公共權(quán)重生成方法不同時(shí)具備線性、規(guī)模無(wú)關(guān)優(yōu)點(diǎn)的問(wèn)題,根據(jù)軍事訓(xùn)練績(jī)效評(píng)估需求,提出了一種新的DEA公共權(quán)重生成方法
    發(fā)表于 01-13 11:03 ?0次下載

    研究人員提出一種基于哈希的二值網(wǎng)絡(luò)訓(xùn)練方法 比當(dāng)前方法的精度提高了3%

    程健研究員團(tuán)隊(duì)最近提出了一種基于哈希的二值網(wǎng)絡(luò)訓(xùn)練方法,揭示了保持內(nèi)積哈希和二值權(quán)重網(wǎng)絡(luò)之間的緊密關(guān)系。
    的頭像 發(fā)表于 02-08 15:38 ?5246次閱讀

    從電路的角度出發(fā),提出了一種新的SOC跨時(shí)鐘域同步電路設(shè)計(jì)的方法

    針對(duì)當(dāng)前SOC內(nèi)部時(shí)鐘越來(lái)越復(fù)雜、接口越來(lái)越多以及亞穩(wěn)態(tài)、漏信號(hào)等常見(jiàn)的各種問(wèn)題,分析了以往的優(yōu)化方法的優(yōu)缺點(diǎn),然后從電路的角度出發(fā),提出了一種
    的頭像 發(fā)表于 02-09 14:30 ?6725次閱讀
    從電路的角度出發(fā),<b class='flag-5'>提出了</b><b class='flag-5'>一種</b>新的SOC跨時(shí)鐘域同步電路設(shè)計(jì)的<b class='flag-5'>方法</b>

    OpenAI的研究人員提出了一種全新的AI安全策略——迭代放大法

    本文提出的迭代放大,是一種在確定性假設(shè)下為后續(xù)任務(wù)生成訓(xùn)練假設(shè)的方法。實(shí)際上,雖然人類不能在全局
    的頭像 發(fā)表于 10-26 10:52 ?3303次閱讀

    OpenAI提出了一種回報(bào)設(shè)置方法RND

    在開(kāi)發(fā)RND之前,OpenAI的研究人員和加州大學(xué)伯克利分校的學(xué)者進(jìn)行了合作,他們測(cè)試了在沒(méi)有環(huán)境特定回報(bào)的情況下,智能體的學(xué)習(xí)情況。因?yàn)閺睦碚撋蟻?lái)說(shuō),好奇心提供了一種更簡(jiǎn)單的方法來(lái)教授智能體如何與各種環(huán)境進(jìn)行交互,它不需要人為
    的頭像 發(fā)表于 11-05 15:15 ?3243次閱讀

    微軟在ICML 2019上提出了個(gè)全新的通用預(yù)訓(xùn)練方法MASS

    專門(mén)針對(duì)序列到序列的自然語(yǔ)言生成任務(wù),微軟亞洲研究院提出了新的預(yù)訓(xùn)練方法:屏蔽序列到序列預(yù)訓(xùn)練(MASS: Masked Sequence
    的頭像 發(fā)表于 05-11 09:19 ?3537次閱讀
    微軟在ICML 2019上<b class='flag-5'>提出了</b><b class='flag-5'>一</b>個(gè)全新的通用預(yù)<b class='flag-5'>訓(xùn)練方法</b>MASS

    一種針對(duì)該文本檢索任務(wù)的BERT算法方案DR-BERT

    基于MS MARCO數(shù)據(jù)集,微軟提出了不同的任務(wù)一種是給定問(wèn)題,檢索所有數(shù)據(jù)集中的文檔并進(jìn)行排序,屬于文檔檢索和排序任務(wù);另
    的頭像 發(fā)表于 08-27 18:05 ?4140次閱讀

    一種基于多任務(wù)聯(lián)合訓(xùn)練的閱讀理解模型

    和理解能力。為此,提岀一種基于多任務(wù)聯(lián)合訓(xùn)練的閱讀理解模型,該模型是由組功能各異的神經(jīng)絡(luò)構(gòu)成的聯(lián)合學(xué)習(xí)模型,其仿效人們推理和回答冋題的基本方式分別執(zhí)行文檔選擇和答案抽取兩個(gè)關(guān)鍵步驟。
    發(fā)表于 03-16 11:41 ?10次下載
    <b class='flag-5'>一種</b>基于多<b class='flag-5'>任務(wù)</b>聯(lián)合<b class='flag-5'>訓(xùn)練</b>的閱讀理解模型

    一種基于改進(jìn)的DCGAN生成SAR圖像的方法

    針對(duì)SAR圖像識(shí)別軟件,通過(guò)改進(jìn) DCGAN模型單生成器與單判別器對(duì)抗的結(jié)構(gòu),采用多生成器與單判別器進(jìn)行對(duì)抗,設(shè)計(jì)了控制各生成生成圖像平均質(zhì)量的算法,
    發(fā)表于 04-23 11:01 ?21次下載
    <b class='flag-5'>一種</b>基于改進(jìn)的DCGAN<b class='flag-5'>生成</b>SAR圖像的<b class='flag-5'>方法</b>