典型文献
基于奖励滤波信用分配的多智能体深度强化学习算法
文献摘要:
近年来,强化学习方法在游戏博弈、机器人导航等多种应用领域取得了令人瞩目的成果.随着越来越多的现实场景需要多个智能体完成复杂任务,强化学习的研究领域已逐渐从单一智能体转向多智能体.而在多智能体强化学习问题的研究中,让智能体学会协作成为当前的一大研究热点.在这一过程中,多智能体信用分配问题亟待解决.这是因为部分可观测环境会针对智能体产生的联合动作产生奖励强化信号,并将其用于强化学习网络参数的更新.也就是说,当所有智能体共享一个相同的全局奖励时,难以确定系统中的每一个智能体对整体所做出的贡献.除此之外,当某个智能体提前学习好策略并获得较高的回报时,其他智能体可能停止探索,使得整个系统陷入局部最优.针对这些问题,本文提出了一种简单有效的方法,即基于奖励滤波的信用分配算法.将其他智能体引起的非平稳环境影响建模为噪声,获取集中训练过程中的全局奖励信号,经过滤波后得到每个智能体的局部奖励,用于协调多智能体的行为,更好地实现奖励最大化.我们还提出了基于奖励滤波的多智能体深度强化学习(RF-MADRL)框架,并在Open AI提供的合作导航环境中成功地进行了验证.实验结果表明,和基线算法相比,使用基于奖励滤波的深度强化学习方法有着更好的表现,智能体系统策略收敛速度更快,获得的奖励更高.
文献关键词:
多智能体系统;深度强化学习;信用分配;奖励滤波;合作导航
中图分类号:
作者姓名:
徐诚;殷楠;段世红;何昊;王然
作者机构:
北京科技大学计算机与通信工程学院 北京 100083;北京科技大学顺德研究生院 广东佛山 528399
文献出处:
引用格式:
[1]徐诚;殷楠;段世红;何昊;王然-.基于奖励滤波信用分配的多智能体深度强化学习算法)[J].计算机学报,2022(11):2306-2320
A类:
奖励滤波,信用分配,合作导航
B类:
多智能体深度强化学习,深度强化学习算法,强化学习方法,机器人导航,令人瞩目,现实场景,复杂任务,多智能体强化学习,学习问题,大研,分配问题,部分可观测,观测环境,学习网络,网络参数,也就是说,难以确定,除此之外,某个,习好,报时,局部最优,分配算法,非平稳,影响建模,训练过程,部奖,RF,MADRL,Open,基线算法,系统策略,收敛速度,多智能体系统
AB值:
0.248764
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。