首站-论文投稿智能助手
典型文献
基于双延迟深度确定性策略梯度的船舶自主避碰方法
文献摘要:
为满足智能船舶自主航行的发展需求,解决基于强化学习的船舶避碰决策方法存在的学习效率低、泛化能力弱以及复杂会遇场景下鲁棒性差等问题,针对船舶避碰决策信息的高维性和动作的连续性等特点,考虑决策的合理性和实时性,研究了基于双延迟深度确定性策略梯度(TD3)的船舶自主避碰方法.根据船舶间相对运动信息与碰撞危险信息,从全局角度构建具有连续多时刻目标船信息的状态空间;依据船舶操纵性设计连续决策动作空间;综合考虑目标导向、航向保持、碰撞危险、《1972年国际海上避碰规则》(COLREGs)和良好船艺等因素,设计船舶运动的奖励函数;基于TD3算法,根据状态空间结构,结合长短期记忆(LSTM)网络和一维卷积网络,利用Actor-Critic结构设计船舶自主避碰网络模型,利用双价值网络学习、目标策略平滑以及策略网络延迟更新等方式稳定网络训练,利用跳帧以及批量大小和迭代更新次数动态增大等方式加速网络训练;为解决模型泛化能力弱的问题,提出基于TD3的船舶随机会遇场景训练流程,实现自主避碰模型应用的多场景迁移.运用训练得到的船舶自主避碰模型进行仿真验证,并与改进人工势场(APF)算法进行比较,结果表明:所提方法学习效率高,收敛快速平稳;训练得到的自主避碰模型在2船和多船会遇场景下均能使船舶在安全距离上驶过,并且在复杂会遇场景中比改进APF算法避碰成功率高,避让2~4艘目标船时成功率高达99.233%,5~7艘目标船时成功率97.600%,8~10艘目标船时成功率94.166%;所提方法能有效应对来船的不协调行动,避碰实时性高,决策安全合理,航向变化快速平稳、震荡少、避碰路径光滑,比改进APF方法性能更强.
文献关键词:
交通信息工程;船舶避碰;智能决策;深度强化学习;双延迟深度确定性策略梯度
作者姓名:
刘钊;周壮壮;张明阳;刘敬贤
作者机构:
武汉理工大学航运学院 武汉 430063;武汉理工大学内河航运技术湖北省重点实验室 武汉 430063;武汉理工大学国家水运安全工程技术研究中心 武汉 430063;阿尔托大学工程学院机械工程系 芬兰 艾斯堡 20110
文献出处:
引用格式:
[1]刘钊;周壮壮;张明阳;刘敬贤-.基于双延迟深度确定性策略梯度的船舶自主避碰方法)[J].交通信息与安全,2022(03):60-74
A类:
COLREGs,良好船艺,双价值网络,跳帧
B类:
双延迟深度确定性策略梯度,智能船舶,船舶自主航行,船舶避碰,决策方法,学习效率,泛化能力,会遇,决策信息,高维性,TD3,相对运动,运动信息,全局角度,状态空间,船舶操纵性,策动,动作空间,航向保持,国际海上避碰规则,船舶运动,奖励函数,长短期记忆,一维卷积网络,Actor,Critic,网络学习,目标策略,策略网络,网络延迟,网络训练,迭代更新,模型泛化,训练流程,模型应用,多场景,场景迁移,练得,仿真验证,改进人工势场,APF,方法学,安全距离,驶过,中比,成功率高,避让,实时性高,震荡,交通信息工程,智能决策,深度强化学习
AB值:
0.314739
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。