基于奖励滤波信用分配的多智能体深度强化学习算法|徐诚;殷楠;段世红;何昊;王然|北京科技大学顺德研究生院广东佛山 528399 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

典型文献

基于奖励滤波信用分配的多智能体深度强化学习算法

文献摘要：

近年来,强化学习方法在游戏博弈、机器人导航等多种应用领域取得了令人瞩目的成果.随着越来越多的现实场景需要多个智能体完成复杂任务,强化学习的研究领域已逐渐从单一智能体转向多智能体.而在多智能体强化学习问题的研究中,让智能体学会协作成为当前的一大研究热点.在这一过程中,多智能体信用分配问题亟待解决.这是因为部分可观测环境会针对智能体产生的联合动作产生奖励强化信号,并将其用于强化学习网络参数的更新.也就是说,当所有智能体共享一个相同的全局奖励时,难以确定系统中的每一个智能体对整体所做出的贡献.除此之外,当某个智能体提前学习好策略并获得较高的回报时,其他智能体可能停止探索,使得整个系统陷入局部最优.针对这些问题,本文提出了一种简单有效的方法,即基于奖励滤波的信用分配算法.将其他智能体引起的非平稳环境影响建模为噪声,获取集中训练过程中的全局奖励信号,经过滤波后得到每个智能体的局部奖励,用于协调多智能体的行为,更好地实现奖励最大化.我们还提出了基于奖励滤波的多智能体深度强化学习(RF-MADRL)框架,并在Open AI提供的合作导航环境中成功地进行了验证.实验结果表明,和基线算法相比,使用基于奖励滤波的深度强化学习方法有着更好的表现,智能体系统策略收敛速度更快,获得的奖励更高.

文献关键词：

多智能体系统;深度强化学习;信用分配;奖励滤波;合作导航

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

[3] 自动化技术、计算机技术（TP） / 自动化技术及设备（TP2） / 自动化系统（TP27） / 自动控制、自动控制系统（TP273）

作者姓名：

徐诚;殷楠;段世红;何昊;王然

作者机构：

北京科技大学计算机与通信工程学院北京 100083;北京科技大学顺德研究生院广东佛山 528399

文献出处：

计算机学报

引用格式：

[1]徐诚;殷楠;段世红;何昊;王然-.基于奖励滤波信用分配的多智能体深度强化学习算法)[J].计算机学报,2022(11):2306-2320

A类：

奖励滤波,信用分配,合作导航

B类：

多智能体深度强化学习,深度强化学习算法,强化学习方法,机器人导航,令人瞩目,现实场景,复杂任务,多智能体强化学习,学习问题,大研,分配问题,部分可观测,观测环境,学习网络,网络参数,也就是说,难以确定,除此之外,某个,习好,报时,局部最优,分配算法,非平稳,影响建模,训练过程,部奖,RF,MADRL,Open,基线算法,系统策略,收敛速度,多智能体系统

AB值：

0.248764

相似文献

基于多智能体强化学习的大规模灾后用户分布式覆盖优化

许文俊;吴思雷;王凤玉;林兰;李国军;张治-北京邮电大学人工智能学院,北京 100876;重庆邮电大学超视距可信信息传输研究所,重庆 400065;北京邮电大学信息与通信工程学院,北京 100876

稀疏奖励场景下基于个体落差情绪的多智能体协作算法

王浩;汪京;方宝富-合肥工业大学计算机与信息学院合肥230601;合肥工业大学情感计算与先进智能机器安徽省重点实验室合肥230601

基于观测空间关系提取的多智能体强化学习

许书卿;臧传治;王鑫;刘鼎;刘玉奇;曾鹏-中国科学院沈阳自动化研究所机器人学国家重点实验室,沈阳 110016;中国科学院网络化控制系统重点实验室,沈阳 110016;中国科学院机器人与智能制造创新研究院,沈阳 110016;中国科学院大学,北京 100049;沈阳工业大学,沈阳 110023

基于值分解的多智能体深度强化学习综述

熊丽琴;曹雷;赖俊;陈希亮-陆军工程大学指挥控制工程学院南京210007

TransPath:一种基于深度迁移强化学习的知识推理方法