RLax(發(fā)音為“ relax”)是建立在JAX之上的庫,它公開了用于實施強化學習智能體的有用構(gòu)建塊。。
報道:深度強化學習實驗室
作者:DeepRL
來源:Github/DeepMind
RLax及背景
強化學習主要用于研究學習系統(tǒng)(智能體)的問題,該學習系統(tǒng)必須學習與環(huán)境進行交互的信息。智能體和環(huán)境在不連續(xù)的步驟上進行交互。在每個步驟中,智能體都會選擇一個動作,并會提供一個返回的環(huán)境狀態(tài)(觀察)狀態(tài)(部分)和標量反饋信號(獎勵)。智能體的行為以行為的概率分布為特征,該分布取決于對環(huán)境(策略)的過去觀察。智能體尋求一種策略,該策略將從任何給定步驟中最大化從該點開始(返回)將收集的折扣累積獎勵。智能體策略或環(huán)境動態(tài)本身通常是隨機的。在這種情況下,回報是一個隨機變量,并且通常將更精確的智能體策略指定為在智能體和環(huán)境的隨機性下最大化回報期望(值)的策略。
RLax(發(fā)音為“ relax”)是建立在JAX之上的庫,它公開了用于實施強化學習智能體的有用構(gòu)建塊。
安裝與使用
可以使用以下命令從github直接使用pip安裝RLax:
pip install git+git://github.com/deepmind/rlax.git.
然后可以使用JAX的jax.jit函數(shù)為不同的硬件(例如CPU,GPU,TPU)及時編譯所有RLax代碼。
強化學習算法
增強學習算法包含三個原型系列:
- 那些估計狀態(tài)和動作的價值,并通過檢查推斷策略的行為(例如,通過選擇估計值最高的動作)
- 學習環(huán)境模型(能夠預(yù)測觀察結(jié)果和獎勵),并通過計劃推斷策略。
- 那些參數(shù)化可以直接執(zhí)行的策略的參數(shù),
無論如何,策略,價值或模型只是功能。在深度強化學習中,此類功能由神經(jīng)網(wǎng)絡(luò)表示。在這種情況下,通常將強化學習更新公式化為可區(qū)分的損失函數(shù)(類似于(非)監(jiān)督學習)。在自動區(qū)分下,將恢復(fù)原始更新規(guī)則。
但是請注意,尤其是只有以正確的方式對輸入數(shù)據(jù)進行采樣時,更新才有效。例如,僅當輸入軌跡是當前策略的無偏樣本時,策略梯度損失才有效。即數(shù)據(jù)是符合政策的。該庫無法檢查或強制執(zhí)行此類約束。但是,在函數(shù)的文檔字符串中提供了指向描述如何使用每種操作的論文的鏈接。
命名約定和開發(fā)人員指南
我們?yōu)榕c單一經(jīng)驗流交互的代理定義功能和操作。JAX構(gòu)造vmap可用于將這些相同的功能應(yīng)用于批處理(例如,支持重放和并行數(shù)據(jù)生成)。
許多功能在連續(xù)的時間步中考慮策略,行動,獎勵,價值,以便計算其輸出。在這種情況下,qm_t和tm1通常用于說明每個輸入是在哪個步驟上生成的,例如:
- q_tm1:轉(zhuǎn)換的源狀態(tài)中的操作值。
- a_tm1:在源狀態(tài)下選擇的操作。
- r_t:在目標狀態(tài)下收集的結(jié)果獎勵。
- discount_t:與轉(zhuǎn)換關(guān)聯(lián)的折扣。
- q_t:目標狀態(tài)下的操作值。
為每個功能提供了廣泛的測試。當使用jax.jit編譯為XLA以及使用jax.vmap執(zhí)行批處理操作時,所有測試還應(yīng)驗證rlax函數(shù)的輸出。
引用
@software{rlax2020github,
author = {David Budden and Matteo Hessel and John Quan and Steven Kapturowski},
title = {{RL}ax: {R}einforcement {L}earning in {JAX}},
url = {http://github.com/deepmind/rlax},
version = {0.0.1a0},
year = {2020},
}
專注深度強化學習前沿技術(shù)干貨,論文,框架,學習路線等,歡迎關(guān)注微信公眾號。
審核編輯 黃昊宇
-
強化學習
+關(guān)注
關(guān)注
4文章
268瀏覽量
11307 -
DeepMind
+關(guān)注
關(guān)注
0文章
131瀏覽量
10951
發(fā)布評論請先 登錄
相關(guān)推薦
淺談適用規(guī)模充電站的深度學習有序充電策略
![淺談適用規(guī)模充電站的深度<b class='flag-5'>學習</b>有序充電策略](https://file1.elecfans.com//web3/M00/02/6E/wKgZO2dfgOuADE0aAABtvTmgxtY156.jpg)
Google DeepMind發(fā)布Genie 2:打造交互式3D虛擬世界
螞蟻集團收購邊塞科技,吳翼出任強化學習實驗室首席科學家
如何使用 PyTorch 進行強化學習
AI實火!諾貝爾又把化學獎頒給AI大模型
谷歌AlphaChip強化學習工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用
深度學習常用的Python庫
通過強化學習策略進行特征選擇
![通過<b class='flag-5'>強化學習</b>策略進行特征選擇](https://file.elecfans.com/web2/M00/4E/DC/poYBAGLCjeiALm_WAAAYmfR7Qec474.png)
谷歌DeepMind發(fā)布人工智能模型AlphaFold最新版本
淺談AI技術(shù)在SSD控制器中的應(yīng)用
![淺談AI技術(shù)在SSD控制器中的應(yīng)用](https://file1.elecfans.com/web2/M00/D1/72/wKgZomYjIraAV7gfAAAi7MJQFWw997.png)
谷歌DeepMind推出SIMI通用AI智能體
谷歌DeepMind推新AI模型Genie,能生成2D游戲平臺
一文詳解Transformer神經(jīng)網(wǎng)絡(luò)模型
![一文詳解Transformer神經(jīng)網(wǎng)絡(luò)模型](https://file1.elecfans.com/web2/M00/C0/3D/wKgZomXUCF-ACTsDAABCrULoz_I157.png)
評論