典型文献
改进Q学习算法在多智能体强化学习中的应用
文献摘要:
Q-learning作为一种经典的强化学习算法,其在离散状态下存在计算量高、收敛速度慢等问题.Speedy Q-learning是Q-learning的变种,目的是解决Q-learning算法收敛速度慢问题.为解决多智能体强化学习中"维数灾"问题,在Speedy Q-learning算法的基础上提出了一种基于动作采样的(action sampling based on Speedy Q-learning,ASSQ)算法.该算法采用集中训练-分散执行(centralized training with decentralized execution,CTDE)的框架,将上一迭代步更新后的Q值作为下一状态的最大Q值,有效降低了Q值的比较次数,整体上提升了算法的收敛速度.为减少学习阶段计算量,算法在集中训练阶段求取下一状态最大Q值时,并没有遍历所有联合动作Q值,而只在联合动作空间上进行部分采样.在动作选择和执行阶段,每个智能体又根据学习到的策略独立选择动作,从而有效提高了算法的学习效率.通过在目标运输任务上验证,ASSQ算法能够以100%的成功率学习到最优联合策略,且计算量明显少于Q-learning算法.
文献关键词:
Q-learning;Speedy Q-learning;多智能体强化学习;动作采样
中图分类号:
作者姓名:
赵德京;马洪聪;王家曜;周维庆
作者机构:
青岛大学自动化学院,山东青岛266071;青岛石化检修安装工程有限责任公司,山东青岛266043
文献出处:
引用格式:
[1]赵德京;马洪聪;王家曜;周维庆-.改进Q学习算法在多智能体强化学习中的应用)[J].自动化与仪器仪表,2022(06):13-16,22
A类:
Speedy,动作采样,ASSQ,CTDE
B类:
多智能体强化学习,learning,强化学习算法,下存,计算量,收敛速度,速度慢,变种,维数灾,action,sampling,training,decentralized,execution,一迭,代步,训练阶段,求取,取下,遍历,动作空间,行部,学习效率,联合策略
AB值:
0.293516
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。