典型文献
多智能体专家型策略梯度的目标跟踪与清障
文献摘要:
为适应复杂环境下目标跟踪机器人高效运动规划需求,本文提出一种基于多智能体强化学习的专家型策略梯度(ML-DDPG)方法.为此首先构建了基于最小化任务单元的分布式多Actor-Critic网络架构;随后针对机器人主动障碍清除和目标跟踪任务建立了强化学习运动学模型和视觉样本预处理机制,由此提出一种专家型策略引导的最优目标价值估计方法;进一步通过并行化训练与集中式经验共享,提升了算法的训练效率;最后在不同任务环境下测试了ML-DDPG算法的目标跟踪与清障性能表现,和其它算法对比验证了其在陌生环境中良好的迁移与泛化能力.
文献关键词:
移动机器人;多智能体;强化学习;运动规划;专家策略
中图分类号:
作者姓名:
孙辉辉;胡春鹤;张军国
作者机构:
北京林业大学工学院,北京100083;华北科技学院机电工程学院,河北廊坊065201
文献出处:
引用格式:
[1]孙辉辉;胡春鹤;张军国-.多智能体专家型策略梯度的目标跟踪与清障)[J].控制理论与应用,2022(10):1854-1864
A类:
B类:
体专,专家型,策略梯度,目标跟踪,清障,复杂环境,运动规划,多智能体强化学习,ML,DDPG,任务单,Actor,Critic,网络架构,学习运动,运动学模型,处理机制,策略引导,目标价值,估计方法,并行化,集中式,训练效率,任务环境,算法对比,对比验证,陌生,泛化能力,移动机器人,专家策略
AB值:
0.450762
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。