基于不確定性的貝葉斯策略重用方法
摘 要:針對多智能體對抗中因?qū)κ植呗宰兓瘜?dǎo)致的非平穩(wěn)性問題,在對手動作不可獲取的限制下,提出一種基于不確定性的貝葉斯策略重用算法。在離線階段,在策略學(xué)習(xí)的同時,通過自編碼器建模智能體軌跡與對手動作之間的關(guān)系表征以構(gòu)建對手模型。在在線階段,依據(jù)對手模型和有限交互信息,估計對手策略類型的不確定性,并基于此選擇最優(yōu)應(yīng)對策略并重用。(剩余17764字)
-
-
- 系統(tǒng)工程與電子技術(shù)
- 2025年02期
目錄
- 基于HLS的高精度位移測量算法...
- 基于噪聲元學(xué)習(xí)的衛(wèi)星遙測信號異...
- 基于特征值融合的動態(tài)信道化子帶...
- 基于高光譜跨場景遷移學(xué)習(xí)的集成...
- 基于并行計算的PCAL信號相位...
- 基于MFFDet R的多源艦船...
- 一種伯努利粒子濾波器的FPGA...
- 基于啟發(fā)式頻率規(guī)劃的多雷達(dá)波形...
- 輕量化的ML SNet雷達(dá)復(fù)合...
- 基于圖像結(jié)構(gòu)信息的可見光和SA...
- 基于多目標(biāo)穩(wěn)健STAP的集中式...
- 基于動態(tài)模態(tài)分解的彈道目標(biāo)平動...
- 復(fù)雜場景下間歇采樣轉(zhuǎn)發(fā)干擾抑制...
- 基于概率強(qiáng)度偏好的沖突分析圖模...
- 基于XGboost和線性回歸的...
- 基于自適應(yīng)變鄰域搜索的火控雷達(dá)...
- 基于跨尺度等效彈性的航空裝備損...
- 基于RF XGBoost算法的...
- 地月平動點(diǎn)高軌觀測系統(tǒng)設(shè)計及效...
- 基于不確定性的貝葉斯策略重用方...
- 基于結(jié)構(gòu)化數(shù)據(jù)的區(qū)域保障調(diào)度模...
- 基于多層編碼遺傳算法的艦載機(jī)群...
- Dueling DQN優(yōu)化下的...
- 基于滑??刂频母呱璞蕊w行器協(xié)...
- 弱通信下無人潛航器事件觸發(fā)一致...
- 多智能體系統(tǒng)自適應(yīng)固定時間編隊...
- 復(fù)合式無人直升機(jī)姿態(tài)控制半物理...
- 基于多項(xiàng)式混沌展開的船舶避碰魯...
- 面向陣列天線抗干擾無人機(jī)的隱蔽...
- 基于多尺度融合神經(jīng)網(wǎng)絡(luò)的同頻同...
- 并行載波索引差分混沌移位鍵控通...
- 基于新信息準(zhǔn)則與梅西算法的LS...
- 基于AHP權(quán)重優(yōu)化的數(shù)據(jù)鏈跳頻...
- 基于Vondrak Cepek...