典型文献
基于值分布的多智能体分布式深度强化学习算法
文献摘要:
近年来深度强化学习在一系列顺序决策问题中取得了巨大的成功,使其为复杂高维的多智能体系统提供有效优化的决策策略成为可能.然而在复杂的多智能体场景中,现有的多智能体深度强化学习算法不仅收敛速度慢,而且算法的稳定性无法保证.本文提出了基于值分布的多智能体分布式深度确定性策略梯度算法(multi-agent distributed distributional deep deterministic policy gradient,MA-D4PG),将值分布的思想引入到多智能体场景中,保留预期回报完整的分布信息,使智能体能够获得更加稳定有效的学习信号;引入多步回报,提高算法的稳定性;引入了分布式数据生成框架将经验数据生成和网络更新解耦,从而可以充分利用计算资源,加快算法的收敛.实验证明,本文提出的算法在多个连续/离散控制的多智能体场景中均具有更好的稳定性和收敛速度,并且智能体的决策能力也得到了明显的增强.
文献关键词:
多智能体;深度强化学习;值分布;多步回报;分布式数据生成
中图分类号:
作者姓名:
陈妙云;王雷;盛捷
作者机构:
中国科学技术大学 信息科学与技术学院, 合肥 230027
文献出处:
引用格式:
[1]陈妙云;王雷;盛捷-.基于值分布的多智能体分布式深度强化学习算法)[J].计算机系统应用,2022(01):145-151
A类:
D4PG,多步回报,分布式数据生成
B类:
值分布,深度强化学习算法,决策问题,高维,多智能体系统,有效优化,决策策略,多智能体深度强化学习,收敛速度,速度慢,深度确定性策略梯度算法,multi,agent,distributed,distributional,deep,deterministic,policy,gradient,MA,分布信息,经验数据,新解,解耦,计算资源,离散控制,决策能力
AB值:
0.247819
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。