基于分層強化學(xué)習(xí)的多智能體博弈策略生成方法
摘 要:典型基于深度強化學(xué)習(xí)的多智能體對抗策略生成方法采用“分總” 框架,各智能體基于部分可觀測信息生成策略并進行決策,缺乏從整體角度生成對抗策略的能力,大大限制了決策能力。為了解決該問題,基于分層強化學(xué)習(xí)提出改進的多智能體博弈策略生成方法。基于分層強化學(xué)習(xí)構(gòu)建觀測信息到整體價值的決策映射,以最大化整體價值作為目標(biāo)構(gòu)建優(yōu)化問題,并推導(dǎo)了策略優(yōu)化過程,為后續(xù)框架結(jié)構(gòu)和方法實現(xiàn)的設(shè)計提供了理論依據(jù);基于決策映射與優(yōu)化問題構(gòu)建,采用神經(jīng)網(wǎng)絡(luò)設(shè)計了模型框架,詳細闡述了頂層策略控制模型和個體策略執(zhí)行模型;基于策略優(yōu)化方法,給出詳細訓(xùn)練流程和算法流程;采用星際爭霸多智能體對抗(StarCraft Multi-Agent Challenge,SMAC)環(huán)境,與典型多智能體方法進行性能對比。(剩余10552字)
目錄
- 于人工智能的決策技術(shù)導(dǎo)讀...
- 基于深度學(xué)習(xí)的通信輻射源識別綜...
- 強化學(xué)習(xí)在協(xié)作頻譜感知中的應(yīng)用...
- 基于靜態(tài)博弈和遺傳算法的多智能...
- 基于分層強化學(xué)習(xí)的多智能體博弈...
- LEO衛(wèi)星網(wǎng)絡(luò)切換判決方法研究...
- 基于深度強化學(xué)習(xí)的電力物聯(lián)網(wǎng)動...
- 基于多智能體深度強化學(xué)習(xí)的車聯(lián)...
- 數(shù)字信號調(diào)制識別下坐標(biāo)注意力機...
- 數(shù)據(jù)驅(qū)動的無人機異常檢測算法綜...
- 基于YOLOv5算法的無人機巡...
- 基于DMSANet-YOLOv...
- 基于CNN-BiLSTM混合神...
- PSOS-YOLOv5s:一種...
- 基于改進YOLVv5的城市火災(zāi)...
- 面向通信SNR增強的RIS三維...
- 基于顏色校正與改進的CLAHE...
- 一種面向區(qū)域尺度的DMSP/O...
- 擴展卡爾曼濾波的改進蛇定位算法...
- 基于狀態(tài)可觀測性和多模態(tài)數(shù)據(jù)P...
- 可重構(gòu)智能表面輔助的毫米波無線...
- 面向2G~ 5G通信的雙頻雙極...
- 基于改進鯨魚優(yōu)化算法的永磁同步...
- 基于紅外測溫技術(shù)的電能表電流采...
- IoT-MEC網(wǎng)絡(luò)中服務(wù)功能鏈...
- 高通量衛(wèi)星隨機接入控制技術(shù)研究...
- 無人機輸電線路巡檢照片號牌文字...
- 口岸城市末端無人機精準(zhǔn)配送與投...
- 基于虛擬成像原理的組合相機視場...
- 變電站多尺度異常入侵目標(biāo)輕量化...