久精品国产亚洲av麻豆,四虎永久在线精品免费视频观看

編者按：繼OpenAI發(fā)布Dota2的團(tuán)戰(zhàn)AI后，DeepMind今天也發(fā)布了自家的最新研究，一些可以互相協(xié)作，也可以和人類選手合作的人工智能機(jī)器人。以下是論智對DeepMind博文的編譯。

在游戲項(xiàng)目中，讓AI掌握策略、理解戰(zhàn)術(shù)并進(jìn)行團(tuán)隊(duì)合作是非常重要的?，F(xiàn)在的強(qiáng)化學(xué)習(xí)經(jīng)過發(fā)展，我們的智能體在《雷神之錘III：競技場》的奪旗比賽（Capture the Flag）中的表現(xiàn)達(dá)到了人類水平，它們在團(tuán)隊(duì)合作方面展示出了較高水準(zhǔn)。

《雷神之錘III：競技場》的奪旗模式（CTF）是一款以第一人稱視角展示的多人游戲，參賽者分成兩組，紅隊(duì)和藍(lán)隊(duì)。每組隊(duì)員的目標(biāo)是奪取對方的旗幟并將它帶回自己的基地，同時(shí)保護(hù)己方旗幟。殺死對手得1分，自己非正常死亡扣1分，奪取對方旗子得3分，殺死奪旗者得2分，重新拿到己方旗子得1分，成功奪取一次旗子（將旗子送回己方基地）得5分。五分鐘內(nèi)有較多旗子的一方獲勝。

我們訓(xùn)練的四個(gè)智能體在室內(nèi)和室外兩種環(huán)境下進(jìn)行對戰(zhàn)，并逐漸修煉到能夠奪旗的水平

對人類來說，每個(gè)個(gè)體都有自己的目標(biāo)和行動(dòng)方式，但我們?nèi)匀荒茉趫F(tuán)隊(duì)和組織中展示出集體智慧，我們將這一設(shè)置稱為“多智能體學(xué)習(xí)”：多個(gè)智能體必須獨(dú)立行動(dòng)，但是要學(xué)習(xí)與其他智能體交互合作。這個(gè)問題非常困難，因?yàn)榄h(huán)境是在不斷變化的。

為了研究這一問題，我們以各類3D第一人稱視角的電子游戲?yàn)檠芯繉ο?，它們代表了大多?shù)游戲的形式，能反映各類玩家的策略，因?yàn)槠渲邪怂麄儗τ螒虻睦斫?、手眼配合以及團(tuán)隊(duì)計(jì)劃。我們的智能體所面臨的挑戰(zhàn)是直接從原始像素中學(xué)習(xí)，從而輸出動(dòng)作。

實(shí)驗(yàn)中我們選用的《雷神之錘III：競技場》游戲是現(xiàn)在許多第一人稱角色游戲的基礎(chǔ)，我們訓(xùn)練智能體像單人一樣學(xué)習(xí)和行動(dòng)，但是仍要在團(tuán)隊(duì)間進(jìn)行合作，共同對抗敵方。

從一個(gè)多智能體的角度，CTF需要玩家既能和隊(duì)友完美合作，也要與敵人對抗，不論在什么風(fēng)格下都要保持水平的穩(wěn)定。

為了讓這一過程更有趣，我們還設(shè)計(jì)了一個(gè)CTF的變體，其中的平面地圖每一場都不一樣。結(jié)果我們的智能體被迫學(xué)習(xí)到了一種“通用策略”，而非靠對地圖的記憶獲勝。除此之外，為了評估游戲場地，我們的智能體用人類的方式感受了一下CTF的環(huán)境：它們通過一個(gè)虛擬游戲控制器觀察一連串的像素圖像和動(dòng)作。

CTF的環(huán)境不斷更新，所以智能體必須適應(yīng)陌生地圖

我們的智能體必須從零開始學(xué)習(xí)在陌生環(huán)境中如何觀察地形、行動(dòng)、合作、競爭，這一切都要從每場比賽的單一強(qiáng)化信號中得來：不論它們所在隊(duì)伍是否獲勝。這是一個(gè)具有挑戰(zhàn)性的學(xué)習(xí)問題，而解決方法基于三個(gè)強(qiáng)化學(xué)習(xí)的基本問題：

與訓(xùn)練單一智能體相反，我們訓(xùn)練的是多個(gè)智能體，它們通過與各種隊(duì)友和對手的互動(dòng)來學(xué)習(xí)。

團(tuán)隊(duì)里的每個(gè)智能體都從它自己的內(nèi)部獎(jiǎng)勵(lì)信號中學(xué)習(xí)，從而讓智能體生成自己內(nèi)部的目標(biāo)，例如獲得一面旗幟。兩階段的優(yōu)化過程優(yōu)化了智能體內(nèi)部的獎(jiǎng)勵(lì)，同時(shí)用內(nèi)部獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)學(xué)習(xí)了智能體的策略。

智能體會(huì)在快慢兩種速度下進(jìn)行訓(xùn)練，這樣會(huì)提高他們利用內(nèi)存并生成連續(xù)動(dòng)作的能力。

最終訓(xùn)練出的智能體（FTW）在玩CTF上表現(xiàn)出了很高的水準(zhǔn)。重要的是，該智能體在各種地圖、隊(duì)員數(shù)量的情況下，表現(xiàn)得都很穩(wěn)定。不論是在戶外模式還是室內(nèi)模式，或者有人類參與的比賽中，F(xiàn)TW都表現(xiàn)的很好。

我們組織了一場聯(lián)賽，其中有40名人類玩家，將人類和智能體隨機(jī)組合分配到游戲中。

FTW智能體學(xué)習(xí)之后比基準(zhǔn)的方法更強(qiáng)大，同時(shí)超過了人類選手的取勝率。事實(shí)上，在對參賽者的評估上，智能體的合作能力比人類更強(qiáng)。

智能體在訓(xùn)練時(shí)的表現(xiàn)與人類的對比

理解智能體的內(nèi)部機(jī)制

為了了解智能體是如何表示游戲狀態(tài)的，我們查看了智能體神經(jīng)網(wǎng)絡(luò)的活動(dòng)形式。下面的圖表展示了游戲過程中的情形，其中密密麻麻的點(diǎn)根據(jù)CTF在游戲中的狀態(tài)分成不同的顏色，根據(jù)顏色可以判斷：智能體在哪個(gè)房間？旗子的狀態(tài)如何？能看到哪個(gè)隊(duì)友或?qū)κ?？通過觀察顏色相同的點(diǎn)，我們發(fā)現(xiàn)在相似狀態(tài)的智能體動(dòng)作也相似。

各色點(diǎn)點(diǎn)代表游戲中各種智能體所處的狀態(tài)和位置

我們不會(huì)告訴智能體游戲的規(guī)則，而是讓他們自己學(xué)習(xí)基礎(chǔ)概念。事實(shí)上，我們可以找到具體編碼有重要游戲狀態(tài)的神經(jīng)元，比如當(dāng)旗子被奪走時(shí)活動(dòng)的神經(jīng)元，或者隊(duì)友拿到旗時(shí)活動(dòng)的神經(jīng)元。想知道更多智能體細(xì)節(jié)，可查看原論文。

除了這些多樣的表示，智能體實(shí)際上是怎樣運(yùn)作的？首先，我們注意到智能體的反應(yīng)時(shí)間很快，并且還有精確的標(biāo)記器。但是當(dāng)人為地降低他們的精度和反應(yīng)時(shí)間，我們看到導(dǎo)致成功的只有一個(gè)因素。

智能體的精確度和反應(yīng)時(shí)間比人類要高

通過無監(jiān)督學(xué)習(xí)我們創(chuàng)建了智能體的原始動(dòng)作，發(fā)現(xiàn)智能體實(shí)際上是在模仿人類行為，例如跟隨隊(duì)友或者在對手的基地“安營扎寨”。這些動(dòng)作都是在訓(xùn)練中通過強(qiáng)化學(xué)習(xí)和進(jìn)化得來的。

結(jié)語

最近人工智能在星際爭霸II和Dota 2這樣復(fù)雜的游戲中都取得了不小的進(jìn)步，雖然這一項(xiàng)目的側(cè)重點(diǎn)在于“奪旗”游戲，但是做出的貢獻(xiàn)是通用的，研究人員表示，他們很高興看到其他研究者在不同環(huán)境中應(yīng)用這一技術(shù)。在未來，他們將對目前的強(qiáng)化學(xué)習(xí)和基于多個(gè)智能體的訓(xùn)練方法進(jìn)行改進(jìn)?？偟膩碚f，這項(xiàng)工作突出了多智能體訓(xùn)練的潛力，有助于它們與人類的合作。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
211

文章
28708

瀏覽量
208703
智能體

智能體

+關(guān)注

關(guān)注
1

文章
172

瀏覽量
10623
DeepMind

DeepMind

+關(guān)注

關(guān)注
0

文章
131

瀏覽量
10963

原文標(biāo)題：不論隊(duì)友是機(jī)器人還是人類，DeepMind智能體學(xué)會(huì)了復(fù)雜合作

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

繼OpenAI發(fā)布Dota2的團(tuán)戰(zhàn)AI后，DeepMind今天也發(fā)布了自家的最新研究

評論

《DotA2》同時(shí)在線人數(shù)首次突破100萬，全民打年獸？

未來的AI 深挖谷歌 DeepMind 和它背后的技術(shù)

全志科技正式發(fā)布首款AI語音專用芯片R329

繼人工智能OpenAI打敗Dota2 玩家后，人工智能DeepMind又在雷神之錘3超越人類水準(zhǔn)

AI對于人類的競爭性和輔助性

AI在簡化了的DOTA2擊敗前1％玩家，學(xué)習(xí)能力很出色

AI也能相互協(xié)作的玩游戲，玩Dota2戰(zhàn)勝了人類玩家

OpenAI的由5個(gè)神經(jīng)網(wǎng)絡(luò)組成的OpenAI Five，已經(jīng)開始擊敗Dota 2的業(yè)余玩家隊(duì)伍

AI首度在電競游戲《DOTA 2》擊敗人類

Dota2敗給OpenAI-Five究竟是為什么？

AI之間能團(tuán)隊(duì)合作嗎？AI團(tuán)隊(duì)挑戰(zhàn)Dota2職業(yè)選手團(tuán)隊(duì)

5個(gè)AI隊(duì)伍竟然可以在《Dota2》戰(zhàn)勝人類5人隊(duì)伍

最后一戰(zhàn) AI 2：0吊打世界冠軍DOTA2 人類完敗

人工智能戰(zhàn)隊(duì)OpenAI將戰(zhàn)Dota2人類最強(qiáng)戰(zhàn)隊(duì)的最終決戰(zhàn)

AI如何對抗Dota人類游戲高手