OpenAI昨日發(fā)布研究成果,宣布Dota2 5v5在限定條件下(英雄陣容固定,部分道具和功能禁用)戰(zhàn)勝人類半職業(yè)選手。本文主要對(duì)其模型技術(shù)架構(gòu)做一些分析總結(jié)。
一、 模型輸入與輸出
模型的輸入是使用RAM(內(nèi)存信息),如位置坐標(biāo),技能血量數(shù)值狀態(tài)等,而不是圖像像素信息。
模型輸入主要分為兩個(gè)部分:
直接觀測(cè)的信息:場(chǎng)面其他英雄的絕對(duì)位置,相對(duì)距離,相對(duì)角度,血量,狀態(tài)等。
人工定義抽象的信息:是否被攻擊以及正在被誰(shuí)攻擊,炮彈距離命中的時(shí)間,朝向的cos與sin,最近12幀內(nèi)的英雄的血量變化等。
模型的輸出即是指AI所選擇的動(dòng)作,包括移動(dòng),攻擊釋放技能等。OpenAI將連續(xù)的動(dòng)作,離散化對(duì)應(yīng)到網(wǎng)格,并對(duì)各種技能定制化釋放動(dòng)作,以減少動(dòng)作空間的大小。以下圖為例,AI要釋放一個(gè)攻擊技能,需要選取這個(gè)技能,并選擇一個(gè)目標(biāo)單位周?chē)W(wǎng)格內(nèi)的一個(gè)位置:
值得注意的是,在Dota2游戲內(nèi)還有其他動(dòng)作,例如操控信使,購(gòu)買(mǎi)裝備,技能升級(jí)與天賦等,這些都是人工定義好,而不需AI決策的。而操控幻象分身,召喚物等涉及更復(fù)雜的多單位操作,則未在OpenAI當(dāng)前版本的考慮范圍內(nèi)。
二、 網(wǎng)絡(luò)架構(gòu)與訓(xùn)練方式
網(wǎng)絡(luò)架構(gòu)架構(gòu)局部如下圖:
模型大圖下載鏈接:https://d4mucfpksywv.cloudfront.net/research-covers/openai-five/network-architecture.pdf
總的來(lái)看,大量信息通過(guò)連接(concatenate)與全連接層(dense)層進(jìn)行綜合,作為1024維的LSTM的輸入。LSTM綜合時(shí)序信息,并輸出決策向量,再用決策向量解構(gòu)出詳細(xì)動(dòng)作。
訓(xùn)練方式:
純自我對(duì)弈訓(xùn)練。
隨機(jī)化訓(xùn)練:隨機(jī)初始狀態(tài)(血量速度移動(dòng)等)的訓(xùn)練,以增強(qiáng)泛化能力。
使用很高的γ=0.9997。γ為獎(jiǎng)勵(lì)衰減值,一般在其他環(huán)境中設(shè)置為0.98,0.998。
大量計(jì)算:128,000CPU+256GPU,能做到每天模擬玩180年的游戲。
獎(jiǎng)勵(lì)(reward)設(shè)計(jì):
總體獎(jiǎng)勵(lì):當(dāng)前局面評(píng)估(塔的情況等),KDA(個(gè)人戰(zhàn)績(jī)),補(bǔ)兵表現(xiàn)等。
合作獎(jiǎng)勵(lì):全隊(duì)的表現(xiàn)作為自己獎(jiǎng)勵(lì)的一部分。
分路對(duì)線的獎(jiǎng)勵(lì)與懲罰:最開(kāi)始分配一條路,前期發(fā)育時(shí)如果偏離就會(huì)懲罰。
三、 總結(jié)
用強(qiáng)化學(xué)習(xí)玩Dota2需要面對(duì)4個(gè)挑戰(zhàn):狀態(tài)空間大,局面不完全可見(jiàn)(有視野限制),動(dòng)作空間大,時(shí)間尺度大。
近期論文中提出的解決方案,大致有以下幾個(gè)方向:
狀態(tài)空間大:解決方法如先用World Models抽象,再進(jìn)行決策。
局面不完全可見(jiàn):一般認(rèn)為需要進(jìn)行一定的搜索,如AlphaGo的MCTS(蒙特卡洛樹(shù)搜索)。
動(dòng)作空間大:可以使用模仿學(xué)習(xí)(Imitation Learning),或者與層次強(qiáng)化學(xué)習(xí)結(jié)合的方法。
時(shí)間尺度大:一般認(rèn)為需要時(shí)間維度上的層次強(qiáng)化學(xué)習(xí)(Hierarchical Reinforcement Leanring)來(lái)解決這個(gè)問(wèn)題。
而神奇的是,OpenAI沒(méi)有使用上述任一方法,而僅僅使用高γ值的PPO基礎(chǔ)算法,就解決了這些問(wèn)題。這說(shuō)明憑借非常大量的計(jì)算,強(qiáng)化學(xué)習(xí)的基礎(chǔ)算法也能突破這些挑戰(zhàn)。
OpenAI沒(méi)有使用的WorldModels,MCTS,IL,HRL等方法,既是學(xué)術(shù)界研究的重點(diǎn)方向,也是OpenAI-Five潛在的提升空間。這些更高效的方法若被合理應(yīng)用,可以加快模型的學(xué)習(xí)速度,增強(qiáng)模型的遷移能力,并幫助模型突破當(dāng)前的限制。
-
AI
+關(guān)注
關(guān)注
87文章
31735瀏覽量
270524 -
模型
+關(guān)注
關(guān)注
1文章
3346瀏覽量
49274
原文標(biāo)題:技術(shù)架構(gòu)分析:攻克Dota2的OpenAI-Five
文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論