典型文献
基于PPO的移动平台自主导航
文献摘要:
为解决强化学习算法在自主导航任务中动作输出不连续、训练收敛困难等问题,提出了一种基于近似策略优化(PPO)算法的移动平台自主导航方法.在PPO算法的基础上设计了基于正态分布的动作策略函数,解决了移动平台整车线速度和横摆角速度的输出动作连续性问题.设计了一种改进的人工势场算法作为自身位置评价,有效提高强化学习模型在自主导航场景中的收敛速度.针对导航场景设计了模型的网络框架和奖励函数,并在Gazebo仿真环境中进行模型训练,结果表明,引入自身位置评价的模型收敛速度明显提高.将收敛模型移植入真实环境中,验证了所提方法的有效性.
文献关键词:
近似策略优化算法;移动平台;自主导航;强化学习;人工势场
中图分类号:
作者姓名:
徐国艳;熊绎维;周彬;陈冠宏
作者机构:
北京航空航天大学 交通科学与工程学院 特种车辆无人运输技术工业和信息化部重点实验室, 北京 100191
文献出处:
引用格式:
[1]徐国艳;熊绎维;周彬;陈冠宏-.基于PPO的移动平台自主导航)[J].北京航空航天大学学报,2022(11):2138-2145
A类:
近似策略优化算法
B类:
PPO,移动平台,自主导航,强化学习算法,导航方法,正态分布,策略函数,整车,线速度,横摆角速度,出动,人工势场算法,置评,收敛速度,场景设计,网络框架,奖励函数,Gazebo,仿真环境,模型训练,收敛模型,真实环境
AB值:
0.351045
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。