資料介紹
Q-learning算法是一種經(jīng)典的強(qiáng)化學(xué)習(xí)算法,更新策略由于保守和過估計(jì)的原因,存在收斂速度慢的問題。 SpeedyQ-learning算法和 Double Q-learning算法是 Q-learning算法的兩個(gè)變種,分別用于解決 Q-learning算法收斂速度慢和過估計(jì)的問題。文中基于 Speedy Q-learning算法Q值的更新規(guī)則和蒙特卡洛強(qiáng)化學(xué)習(xí)的更新策略,通過理論分析及數(shù)學(xué)證明提岀了其等價(jià)形式,從該等價(jià)形式可以看到, Speedy Q-learning算法由于將當(dāng)前Q值的估計(jì)函數(shù)作為歷史Q值的估計(jì),雖然整體上提升了智能體的收斂速度,但是同樣存在過估計(jì)問題,使得算法在迭代初期的收斂速度較慢。針對該問題,文中基于 Double cearning算法中雙估計(jì)器可以改善智能體收斂速度的特性,提岀了一種改進(jìn)算法 Double speedy Q-learning。其通過雙估計(jì)器,分離最優(yōu)動(dòng)作和最大Q值的選擇,改善了 Speedy Q-learning算法在迭代初期的學(xué)習(xí)策略,提升了 Speedy Q-learning算法的整體收斂速度。在不同規(guī)模的格子世界中進(jìn)行實(shí)驗(yàn),分別采用線性學(xué)習(xí)率和多項(xiàng)式學(xué)習(xí)率,來對比 Q-learning算法及其改進(jìn)算法在迭代初期的收斂速度和整體收斂速度。實(shí)驗(yàn)結(jié)果表明,υσ uble speedy Q-learning算法在迭代初期的收斂速度快于 Speedy aearning算法,且其整體收斂速度明顯快于對比算法,其實(shí)際泙均獎(jiǎng)勵(lì)值和期望獎(jiǎng)勵(lì)值之間的差值最小。
- 面向大規(guī)模MIMO系統(tǒng)的信道估計(jì)算法 10次下載
- 基于MLS的NB-IoT信道插值估計(jì)算法 17次下載
- 可改善小區(qū)網(wǎng)絡(luò)通信干擾問題的HSARSA算法 2次下載
- Learning MATLAB英文版電子資料下載 0次下載
- 如何使用FPGA實(shí)現(xiàn)基于修正Rife算法的正弦波頻率估計(jì) 7次下載
- 基于全局背景光估計(jì)和顏色校正的圖像增強(qiáng)算法 6次下載
- 毫米波網(wǎng)絡(luò)鏈路高間歇概率的概率分配方案 10次下載
- 基于實(shí)時(shí)信道狀態(tài)信息估計(jì)的速率自適應(yīng)算法 3次下載
- 基于SVDPP算法的新型協(xié)同過濾推薦算法 17次下載
- 如何使用可靠信標(biāo)和節(jié)點(diǎn)度估計(jì)距離進(jìn)行無線傳感器網(wǎng)絡(luò)定位算法的說明 6次下載
- 如何使用Q學(xué)習(xí)算法進(jìn)行X光主動(dòng)視覺的安檢方法資料說明概述 2次下載
- 基于LCS多機(jī)器人的算法介紹 15次下載
- 基于Q-Learning的認(rèn)知無線電系統(tǒng)感知管理算法
- 多傳感器數(shù)據(jù)融合分散估計(jì)算法
- 改進(jìn)的E-learning社區(qū)自組織算法
- 單目深度估計(jì)開源方案分享 841次閱讀
- Mahony濾波算法參數(shù)自動(dòng)調(diào)節(jié)方法介紹 1189次閱讀
- 淺談Q-Learning在Agent的應(yīng)用 933次閱讀
- 怎樣使用Bevy和dfdx解決經(jīng)典的Cart Pole問題呢 679次閱讀
- 雙端口諧振器的Q值提取方法 8541次閱讀
- AI系統(tǒng)的建立必須估計(jì)算法的泛化能力 1598次閱讀
- 為 Learning-to-Rank 打造的可擴(kuò)展 TensorFlow 庫 4156次閱讀
- 基于循環(huán)前綴的非數(shù)據(jù)輔助估計(jì)算法研究與FPGA實(shí)現(xiàn) 4197次閱讀
- 基于傳感器溫度補(bǔ)償方法的雙指數(shù)函數(shù)模型的溫度補(bǔ)償算法設(shè)計(jì) 1w次閱讀
- Q Learning算法學(xué)習(xí) 3692次閱讀
- 兼具動(dòng)態(tài)規(guī)劃DP和蒙特卡洛MC優(yōu)點(diǎn)的TD Learning算法 3495次閱讀
- 關(guān)于TD Learning算法的分析 1920次閱讀
- 基于單目圖像的深度估計(jì)算法,大幅度提升基于單目圖像深度估計(jì)的精度 3.4w次閱讀
- 強(qiáng)化學(xué)習(xí)究竟是什么?它與機(jī)器學(xué)習(xí)技術(shù)有什么聯(lián)系? 1.4w次閱讀
- 一種FFT插值正弦波快速頻率估計(jì)算法 9657次閱讀
下載排行
本周
- 1山景DSP芯片AP8248A2數(shù)據(jù)手冊
- 1.06 MB | 532次下載 | 免費(fèi)
- 2RK3399完整板原理圖(支持平板,盒子VR)
- 3.28 MB | 339次下載 | 免費(fèi)
- 3TC358743XBG評估板參考手冊
- 1.36 MB | 330次下載 | 免費(fèi)
- 4DFM軟件使用教程
- 0.84 MB | 295次下載 | 免費(fèi)
- 5元宇宙深度解析—未來的未來-風(fēng)口還是泡沫
- 6.40 MB | 227次下載 | 免費(fèi)
- 6迪文DGUS開發(fā)指南
- 31.67 MB | 194次下載 | 免費(fèi)
- 7元宇宙底層硬件系列報(bào)告
- 13.42 MB | 182次下載 | 免費(fèi)
- 8FP5207XR-G1中文應(yīng)用手冊
- 1.09 MB | 178次下載 | 免費(fèi)
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費(fèi)
- 2555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33566次下載 | 免費(fèi)
- 3接口電路圖大全
- 未知 | 30323次下載 | 免費(fèi)
- 4開關(guān)電源設(shè)計(jì)實(shí)例指南
- 未知 | 21549次下載 | 免費(fèi)
- 5電氣工程師手冊免費(fèi)下載(新編第二版pdf電子書)
- 0.00 MB | 15349次下載 | 免費(fèi)
- 6數(shù)字電路基礎(chǔ)pdf(下載)
- 未知 | 13750次下載 | 免費(fèi)
- 7電子制作實(shí)例集錦 下載
- 未知 | 8113次下載 | 免費(fèi)
- 8《LED驅(qū)動(dòng)電路設(shè)計(jì)》 溫德爾著
- 0.00 MB | 6656次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935054次下載 | 免費(fèi)
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537798次下載 | 免費(fèi)
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420027次下載 | 免費(fèi)
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費(fèi)
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費(fèi)
- 6電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191187次下載 | 免費(fèi)
- 7十天學(xué)會AVR單片機(jī)與C語言視頻教程 下載
- 158M | 183279次下載 | 免費(fèi)
- 8proe5.0野火版下載(中文版免費(fèi)下載)
- 未知 | 138040次下載 | 免費(fèi)
評論