典型文献
                基于值分布的多智能体分布式深度强化学习算法
            文献摘要:
                    近年来深度强化学习在一系列顺序决策问题中取得了巨大的成功,使其为复杂高维的多智能体系统提供有效优化的决策策略成为可能.然而在复杂的多智能体场景中,现有的多智能体深度强化学习算法不仅收敛速度慢,而且算法的稳定性无法保证.本文提出了基于值分布的多智能体分布式深度确定性策略梯度算法(multi-agent distributed distributional deep deterministic policy gradient,MA-D4PG),将值分布的思想引入到多智能体场景中,保留预期回报完整的分布信息,使智能体能够获得更加稳定有效的学习信号;引入多步回报,提高算法的稳定性;引入了分布式数据生成框架将经验数据生成和网络更新解耦,从而可以充分利用计算资源,加快算法的收敛.实验证明,本文提出的算法在多个连续/离散控制的多智能体场景中均具有更好的稳定性和收敛速度,并且智能体的决策能力也得到了明显的增强.
                文献关键词:
                    多智能体;深度强化学习;值分布;多步回报;分布式数据生成
                中图分类号:
                    
                作者姓名:
                    
                        陈妙云;王雷;盛捷
                    
                作者机构:
                    中国科学技术大学 信息科学与技术学院, 合肥 230027
                文献出处:
                    
                引用格式:
                    
                        [1]陈妙云;王雷;盛捷-.基于值分布的多智能体分布式深度强化学习算法)[J].计算机系统应用,2022(01):145-151
                    
                A类:
                D4PG,多步回报,分布式数据生成
                B类:
                    值分布,深度强化学习算法,决策问题,高维,多智能体系统,有效优化,决策策略,多智能体深度强化学习,收敛速度,速度慢,深度确定性策略梯度算法,multi,agent,distributed,distributional,deep,deterministic,policy,gradient,MA,分布信息,经验数据,新解,解耦,计算资源,离散控制,决策能力
                AB值:
                    0.247819
                相似文献
                
            机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。