FAILED
首站-论文投稿智能助手
典型文献
一种基于多步竞争网络的多智能体协作方法
文献摘要:
多智能体高效协作是多智能体深度强化学习的重要目标,然而多智能体决策系统中存在的环境非平稳、维数灾难等问题使得这一目标难以实现.现有值分解方法可在环境平稳性和智能体拓展性之间取得较好平衡,但忽视了智能体策略网络的重要性,并且在学习联合动作值函数时未充分利用经验池中保存的完整历史轨迹.提出一种基于多智能体多步竞争网络的多智能体协作方法,在训练过程中使用智能体网络和价值网络对智能体动作评估和环境状态评估进行解耦,同时针对整条历史轨迹完成多步学习以估计时间差分目标,通过优化近似联合动作值函数的混合网络集中且端到端地训练分散的多智能体协作策略.实验结果表明,该方法在6种场景中的平均胜率均优于基于值分解网络、单调值函数分解、值函数变换分解、反事实多智能体策略梯度的多智能体协作方法,并且具有较快的收敛速度和较好的稳定性.
文献关键词:
多智能体协作;深度强化学习;值分解;多步竞争网络;动作值函数
作者姓名:
厉子凡;王浩;方宝富
作者机构:
合肥工业大学 计算机与信息学院,合肥 230601
文献出处:
引用格式:
[1]厉子凡;王浩;方宝富-.一种基于多步竞争网络的多智能体协作方法)[J].计算机工程,2022(05):74-81
A类:
多步竞争网络,值函数分解
B类:
多智能体协作,多智能体深度强化学习,多智能体决策,决策系统,非平稳,维数灾难,难以实现,值分解,分解方法,平稳性,拓展性,策略网络,动作值函数,经验池,历史轨迹,训练过程,价值网络,动作评估,状态评估,解耦,时针,整条,时间差,混合网络,端到端,协作策略,胜率,调值,函数变换,反事实,实多,策略梯度,收敛速度
AB值:
0.292619
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。