基于值分布的多智能体分布式深度强化学习算法|陈妙云;王雷;盛捷 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

典型文献

基于值分布的多智能体分布式深度强化学习算法

文献摘要：

近年来深度强化学习在一系列顺序决策问题中取得了巨大的成功,使其为复杂高维的多智能体系统提供有效优化的决策策略成为可能.然而在复杂的多智能体场景中,现有的多智能体深度强化学习算法不仅收敛速度慢,而且算法的稳定性无法保证.本文提出了基于值分布的多智能体分布式深度确定性策略梯度算法(multi-agent distributed distributional deep deterministic policy gradient,MA-D4PG),将值分布的思想引入到多智能体场景中,保留预期回报完整的分布信息,使智能体能够获得更加稳定有效的学习信号;引入多步回报,提高算法的稳定性;引入了分布式数据生成框架将经验数据生成和网络更新解耦,从而可以充分利用计算资源,加快算法的收敛.实验证明,本文提出的算法在多个连续/离散控制的多智能体场景中均具有更好的稳定性和收敛速度,并且智能体的决策能力也得到了明显的增强.

文献关键词：

多智能体;深度强化学习;值分布;多步回报;分布式数据生成

中图分类号：

[1] 电工技术（TM） / 输配电工程、电力网及电力系统（TM7） / 电力系统的调度、管理、通信（TM73）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

[3] 自动化技术、计算机技术（TP） / 自动化技术及设备（TP2） / 自动化系统（TP27） / 自动控制、自动控制系统（TP273）

作者姓名：

陈妙云;王雷;盛捷

作者机构：

中国科学技术大学信息科学与技术学院, 合肥 230027

文献出处：

计算机系统应用

引用格式：

[1]陈妙云;王雷;盛捷-.基于值分布的多智能体分布式深度强化学习算法)[J].计算机系统应用,2022(01):145-151

A类：

D4PG,多步回报,分布式数据生成

B类：

值分布,深度强化学习算法,决策问题,高维,多智能体系统,有效优化,决策策略,多智能体深度强化学习,收敛速度,速度慢,深度确定性策略梯度算法,multi,agent,distributed,distributional,deep,deterministic,policy,gradient,MA,分布信息,经验数据,新解,解耦,计算资源,离散控制,决策能力

AB值：

0.247819

相似文献

基于序贯博弈多智能体强化学习的综合模块化航空电子系统重构方法

张涛;张文涛;代凌;陈婧怡;王丽;魏倩茹-西北工业大学软件学院,陕西西安710065

基于多智能体深度强化学习的分布式协同干扰功率分配算法

饶宁;许华;蒋磊;宋佰霖;史蕴豪-空军工程大学信息与导航学院,陕西西安710077

稀疏奖励场景下基于个体落差情绪的多智能体协作算法

王浩;汪京;方宝富-合肥工业大学计算机与信息学院合肥230601;合肥工业大学情感计算与先进智能机器安徽省重点实验室合肥230601

基于注意力消息共享的多智能体强化学习

臧嵘;王莉;史腾飞-太原理工大学大数据学院,山西晋中 030600;北方自动控制技术研究所,太原 030006

基于改进DDPG算法的复杂环境下AGV路径规划方法研究