基于內(nèi)在好奇心與自模仿學(xué)習(xí)的探索算法
摘 要: 針對(duì)深度強(qiáng)化學(xué)習(xí)算法在部分可觀測(cè)環(huán)境中面臨的稀疏獎(jiǎng)勵(lì)、信息缺失等問(wèn)題,提出一種結(jié)合好奇心模塊與自模仿學(xué)習(xí)的近端策略優(yōu)化算法。該算法利用隨機(jī)網(wǎng)絡(luò)來(lái)生成探索過(guò)程中的經(jīng)驗(yàn)樣本數(shù)據(jù),然后利用優(yōu)先經(jīng)驗(yàn)回放技術(shù)選取高質(zhì)量樣本,通過(guò)自模仿學(xué)習(xí)對(duì)優(yōu)秀的序列軌跡進(jìn)行模仿,并更新一個(gè)新的策略網(wǎng)絡(luò)用于指導(dǎo)探索行為。(剩余14457字)
-
-
- 現(xiàn)代電子技術(shù)
- 2024年16期
目錄
- 基于CNN?Transform...
- 基于加速退化試驗(yàn)的脈寬調(diào)制器貯...
- 基于多路光流信息的微光視頻增強(qiáng)...
- AlGaN/GaN異質(zhì)結(jié)HEM...
- 原位式準(zhǔn)靜態(tài)壓電材料溫度特性測(cè)...
- 高增益高驅(qū)動(dòng)能力的基準(zhǔn)電壓緩沖...
- 基于FMCW雷達(dá)和ESP?EM...
- 基于時(shí)間戳間距的用戶在線時(shí)長(zhǎng)聚...
- 基于SENT改進(jìn)的遠(yuǎn)程監(jiān)督關(guān)系...
- 基于移動(dòng)端的方藥離合實(shí)訓(xùn)平臺(tái)設(shè)...
- 基于多策略改進(jìn)的SMC?GTO...
- 新型三定子直流無(wú)刷電機(jī)的設(shè)計(jì)與...
- 改進(jìn)關(guān)聯(lián)策略的三維多目標(biāo)跟蹤算...
- 多傳感器融合的無(wú)人車自主定位實(shí)...
- 基于FastestDet的多目...
- 基于改進(jìn)金豺算法的無(wú)人機(jī)三維航...
- 面向服務(wù)的智能建筑軟件框架研究...
- 面向工藝數(shù)據(jù)分析的流程工業(yè)入侵...
- 面向智能駕駛的輕量化GwcNe...
- 面向自動(dòng)緊急轉(zhuǎn)向場(chǎng)景的自動(dòng)駕駛...
- 基于內(nèi)在好奇心與自模仿學(xué)習(xí)的探...
- 基于注意力機(jī)制的跨境斷面水質(zhì)預(yù)...
- 基于多模態(tài)對(duì)齊融合的車廂部件語(yǔ)...
- 基于CART決策樹的分布式數(shù)據(jù)...
- 一種基于YOLOv8的輕量化盲...
- 基于主成分分析的DBSCAN分...
- 基于間斷性Gamma校正的粘連...