典型文献
基于注意力消息共享的多智能体强化学习
文献摘要:
通信是非全知环境中多智能体间实现有效合作的重要途径,当智能体数量较多时,通信过程会产生冗余消息.为有效处理通信消息,提出一种基于注意力消息共享的多智能体强化学习算法AMSAC.首先,在智能体间搭建用于有效沟通的消息共享网络,智能体通过消息读取和写入完成信息共享,解决智能体在非全知、任务复杂场景下缺乏沟通的问题;其次,在消息共享网络中,通过注意力消息共享机制对通信消息进行自适应处理,有侧重地处理来自不同智能体的消息,解决较大规模多智能体系统在通信过程中无法有效识别消息并利用的问题;然后,在集中式Critic网络中,使用Native Critic依据时序差分(TD)优势策略梯度更新Actor网络参数,使智能体的动作价值得到有效评判;最后,在执行期间,智能体分布式Actor网络根据自身观测和消息共享网络的信息进行决策.在星际争霸Ⅱ多智能体挑战赛(SMAC)环境中进行实验,结果表明,与朴素Actor?Critic(Native AC)、博弈抽象通信(GA?Comm)等多智能体强化学习方法相比,AMSAC在四个不同场景下的平均胜率提升了4~32个百分点.AMSAC的注意力消息共享机制为处理多智能体系统中智能体间的通信消息提供了合理方案,在交通枢纽控制和无人机协同领域都具备广泛的应用前景.
文献关键词:
多智能体系统;智能体协同;深度强化学习;智能体通信;注意力机制;策略梯度
中图分类号:
作者姓名:
臧嵘;王莉;史腾飞
作者机构:
太原理工大学 大数据学院,山西 晋中 030600;北方自动控制技术研究所,太原 030006
文献出处:
引用格式:
[1]臧嵘;王莉;史腾飞-.基于注意力消息共享的多智能体强化学习)[J].计算机应用,2022(11):3346-3353
A类:
AMSAC
B类:
有效合作,多智能体强化学习算法,有效沟通,共享网络,读取,写入,复杂场景,共享机制,自适应处理,重地,多智能体系统,集中式,Critic,Native,TD,策略梯度,Actor,网络参数,作价,执行期,身观,星际争霸,挑战赛,SMAC,朴素,GA,Comm,强化学习方法,同场,胜率,百分点,合理方案,交通枢纽,人机协同,智能体协同,深度强化学习,智能体通信,注意力机制
AB值:
0.323837
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。