如何讓AI依照人類的意圖行事?這是將AI應用于現實世界復雜問題的最大障礙之一。DeepMind將這個問題定義為“智能體對齊問題”,并提出了新的解決方案。
如何讓AI符合人類的意圖?
這個問題是將AI系統(tǒng)部署到真實世界、幫助人類解決復雜問題的最大障礙之一。
DeepMind將這個問題定義為“智能體對齊問題”(agent alignment problem),并提出依賴于獎勵建模,正面解決agent alignment問題的研究方向。
這篇文章基于DeepMind的新論文Scalable agent alignment via reward modeling: a research direction,概述了解決agent alignment問題的研究方向。所提出的方法依賴于獎勵建模的遞歸應用,以符合用戶意圖的方式解決復雜的現實世界問題。
近年來,強化學習在許多復雜游戲環(huán)境中取得了令人矚目的成績,從Atari游戲、圍棋、象棋到Dota 2和星際爭霸II,AI智能體在越來越復雜的領域迅速超越了人類水平。游戲是開發(fā)和測試機器學習算法的理想平臺。它們提出了需要多種認知能力才能完成的具有挑戰(zhàn)性的任務,反映出解決現實世界問題所需的技能。機器學習研究人員可以在云上并行運行數千個模擬實驗,生成系統(tǒng)學習所需的訓練數據。
至關重要的是,游戲通常都有一個明確的目標,以及一個近似于實現該目標的進展的分數。這個分數為強化學習智能體提供了有用的獎勵信號,使我們能夠得到關于哪些算法和架構選擇最有效的快速反饋。
智能體對齊問題
AI發(fā)展的終極目標是讓人類受益,讓我們能夠應對現實世界中日益復雜的挑戰(zhàn)。但現實世界并沒有內置的獎勵機制。這就帶來了挑戰(zhàn),因為現實世界任務的表現不容易定義。我們需要一種好的方式來提供反饋,并使AI能夠可靠地理解我們想要什么,以幫助我們實現目的。
換句話說,我們想用人類反饋的方式訓練AI系統(tǒng),使AI的行為與我們的意圖一致。為了達到這個目的,我們將智能體對齊問題(agent alignment problem)定義如下:
如何創(chuàng)建符合用戶意圖的智能體?
對齊問題可以在強化學習框架中構建,不同之處是,智能體可以通過交互協(xié)議與用戶交互,而不是接收數字獎勵信號。這個交互協(xié)議允許用戶向智能體傳達他們的意圖。協(xié)議可以采用多種形式:例如,用戶可以提供演示、偏好、最佳操作或傳達獎勵函數。Agent alignment問題的解決方案之一是根據用戶的意圖行事的策略。
DeepMind的新論文概述了正面解決agent alignment問題的研究方向?;谖覀冎皩I安全問題分類的研究,以及對眾多AI安全問題的論述,我們描繪了這些領域的進展如何能夠產生一個解決agent alignment問題的方案。這將為構建能夠更好地理解如何與用戶交互、如何從用戶的反饋中學習、以及如何預測用戶偏好的系統(tǒng)打開大門。
通過獎勵模型進行對齊
我們研究方向的要點是基于獎勵建模(reward modeling):訓練一個獎勵模型,其中包含來自用戶的反饋,從而捕捉他們的意圖。與此同時,我們通過強化學習訓練一個策略,使獎勵模型的獎勵最大化。換句話說,我們把學習做什么(獎勵模型)和學習怎么做(策略)區(qū)分開來。
獎勵建模的示意圖:根據用戶的反饋訓練獎勵模型,以獲取用戶的意圖;這個獎勵模型為經過強化學習訓練的智能體提供獎勵。
例如,在以前的工作中,我們教智能體根據用戶偏好做一個后空翻,根據目標狀態(tài)示例將對象排列成特定形狀,以及根據用戶偏好和專家演示玩Atari游戲。未來,我們希望設計能夠學習適應用戶提供反饋的方式(例如使用自然語言)的算法。
擴大獎勵模型的規(guī)模
從長遠來看,我們希望將獎勵模型的規(guī)模擴大到人類無法直接評估的過于復雜的領域。要做到這一點,我們需要提高用戶評估結果的能力。我們將討論如何遞歸地應用獎勵建模:可以使用獎勵建建模來訓練agent,讓agent幫助用戶進行評估過程。如果評估比行為更容易,就可以從簡單的任務過渡到更加普遍、更加復雜的任務。這可以看作是一個迭代擴增(iterated amplification)的實例。
遞歸獎勵建模的示意圖:使用遞歸獎勵建模訓練的agent(右邊的小圓圈)幫助用戶評估當前正在訓練的agent(大圓圈)產生的結果。
例如,假設我們想訓練一個agent來設計計算機芯片。為了評估某個提議的芯片設計,我們使用獎勵建模訓練其他的“helper”智能體,以對芯片的模擬性能進行基準測試、計算散熱、估計芯片的壽命、查找安全漏洞,等等。總的來說,這些helper agents的輸出使用戶能夠通過協(xié)助評估所提議的芯片設計來訓練芯片設計agent。雖然helper agent必須解決一系列非常困難的任務,但這些任務總比直接設計一個芯片更容易執(zhí)行:要設計一個計算機芯片,你必須理解每一項評估任務,但反過來則不然。從這個意義上說,遞歸獎勵建??梢宰屛覀儭爸С帧盿gent來解決越來越難的任務,同時保持與用戶意圖一致。
研究挑戰(zhàn)
為了對這些復雜的問題進行獎勵建模,需要解決幾個挑戰(zhàn)性問題。下面列出了其中的五項挑戰(zhàn),論文中對這些挑戰(zhàn)及其解決辦法進行了更深入的描述。
我們希望擴大獎勵建模時遇到的挑戰(zhàn)(左)和有前景的解決方法(右)。
那么就來到了agent alignment的最后一個重要組成部分:在現實世界中部署AI智能體時,我們需要向用戶提供證據,證明我們的智能體確實已經充分對齊了。
本文討論了五種不同的研究途徑,可以幫助增加對agent的信任:設計選擇、測試、可解釋性、形式驗證和理論保證。
我們的一個雄心勃勃的目標是制作安全證書(safety certificates):可以用來證明負責任的技術開發(fā)工作,并讓用戶對依賴訓練好的智能體有信心。
未來研究方向
雖然我們相信遞歸獎勵建模是訓練對齊智能體的一個非常有前景的方向,但目前還不知道它可以如何擴展(需要更多的研究)。幸運的是,追求agent alignment還有其他一些研究方向:
模仿學習
短視強化學習(Myopic reinforcement learning)
逆強化學習(Inverse reinforcement learning)
合作逆強化學習
迭代擴增
Debate
Agent foundations
本文進一步探討它們的異同。
正如對計算機視覺系統(tǒng)相對對抗性輸入的魯棒性的積極研究對于當今的ML應用程序是至關重要的一樣,對齊研究對于在復雜的現實世界中部署ML系統(tǒng)也是至關重要的。我們有理由保持樂觀:雖然我們希望在擴大獎勵模型時面對挑戰(zhàn),但這些挑戰(zhàn)是我們可以取得進展的具體技術研究問題。從這個意義上說,我們的研究方向已經準備就緒,可以對深度強化學習智能體進行實證研究。
-
AI
+關注
關注
87文章
31746瀏覽量
270530 -
機器學習
+關注
關注
66文章
8449瀏覽量
133132 -
智能體
+關注
關注
1文章
172瀏覽量
10631
原文標題:DeepMind重磅論文:通過獎勵模型,讓AI按照人類意圖行事
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
鴻蒙原生應用/元服務開發(fā)-通知添加行為意圖
HarmonyOS NEXT應用元服務開發(fā)Intents Kit(意圖框架服務)技能調用方案概述
HarmonyOS NEXT應用元服務開發(fā)Intents Kit(意圖框架服務)綜述
基于用戶的隱私消費意圖識別
![基于<b class='flag-5'>用戶</b>的隱私消費<b class='flag-5'>意圖</b>識別](https://file.elecfans.com/web2/M00/49/8A/poYBAGKhwMWAIWi5AAAcBlV7mSc456.jpg)
智能體的連接問題,如何創(chuàng)建能符合人類目標的智能體?
亞馬遜升級Alexa語音,更好的通過問題預測用戶意圖
華為在HDC 2022發(fā)布全屏意圖搜索 構建無界搜索服務體驗
![華為在HDC 2022發(fā)布全屏<b class='flag-5'>意圖</b>搜索 構建無界搜索服務體驗](https://file.elecfans.com//web2/M00/78/84/pYYBAGNnpBaAF2IdAABwGCU5rn099.jpeg)
評論