典型文献
面向机械臂轨迹规划的强化学习奖励函数设计
文献摘要:
针对基于深度强化学习的机械臂轨迹规划方法学习效率较低,规划策略鲁棒性差的问题,提出了一种基于语音奖励函数的机械臂轨迹规划方法,利用语音定义规划任务的不同状态,并采用马尔科夫链对状态进行建模,为轨迹规划提供全局指导,降低深度强化学习优化的盲目性.提出的方法结合了基于语音的全局信息和基于相对距离的局部信息来设计奖励函数,在每个状态根据相对距离与语音指导的契合程度对机械臂进行奖励或惩罚.实验证明,设计的奖励函数能够有效地提升基于深度强化学习的机械臂轨迹规划的鲁棒性和收敛速度.
文献关键词:
深度强化学习;机械臂;轨迹规划;语音奖励函数
中图分类号:
作者姓名:
靳栋银;李跃;邵振洲;施智平;关永
作者机构:
首都师范大学 信息工程学院,北京 100048;首都师范大学 轻型工业机械臂与安全验证北京市重点实验室,北京 100048;河北工业职业技术学院 计算机技术系,石家庄 050000;首都师范大学 成像技术北京市高精尖创新中心,北京 100048
文献出处:
引用格式:
[1]靳栋银;李跃;邵振洲;施智平;关永-.面向机械臂轨迹规划的强化学习奖励函数设计)[J].计算机工程与应用,2022(19):302-308
A类:
语音奖励函数
B类:
机械臂轨迹,轨迹规划,深度强化学习,规划方法,方法学,学习效率,规划策略,马尔科夫链,学习优化,盲目性,全局信息,相对距离,局部信息,设计奖,收敛速度
AB值:
0.197691
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。