基于融合离散动作的双延迟深度确定性策略梯度算法的自动驾驶端到端行为决策方法|杨璐;王一权;刘佳琦;段玉林;张荣辉|天津理工大学机电工程国家级实验教学示范中心天津300384 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

典型文献

基于融合离散动作的双延迟深度确定性策略梯度算法的自动驾驶端到端行为决策方法

文献摘要：

针对基于强化学习的车辆驾驶行为决策方法存在的学习效率低、动作变化不平滑等问题,研究了1种融合不同动作空间网络的端到端自动驾驶决策方法,即融合离散动作的双延迟深度确定性策略梯度算法(TD3WD).在基础双延迟深度确定性策略梯度算法(TD3)的网络模型中加入1个输出离散动作的附加Q网络辅助进行网络探索训练,将TD3网络与附加Q网络的输出动作进行加权融合,利用融合后动作与环境进行交互,对环境进行充分探索,以提高对环境的探索效率;更新Critic网络时,将附加网络输出作为噪声融合到目标动作中,鼓励智能体探索环境,使动作值预估更加准确;利用预训练的网络获取图像特征信息代替图像作为状态输入,降低训练过程中的计算成本.利用Carla仿真平台模拟自动驾驶场景对所提方法进行验证,结果表明:在训练场景中,所提方法的学习效率更高,比TD3和深度确定性策略梯度算法(DDPG)等基础算法收敛速度提升约30％;在测试场景中,所提出的算法的收敛后性能更好,平均压线率和转向盘转角变化分别降低74.4％和56.4％.

文献关键词：

自动驾驶;端到端决策;深度强化学习;动作空间

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18）

[3] 自动化技术、计算机技术（TP） / 自动化技术及设备（TP2） / 自动化系统（TP27） / 自动控制、自动控制系统（TP273）

作者姓名：

杨璐;王一权;刘佳琦;段玉林;张荣辉

作者机构：

天津理工大学天津市先进机电系统设计与智能控制重点实验室天津300384;天津理工大学机电工程国家级实验教学示范中心天津300384;中国农业科学院农业资源与农业区划研究所北京100081;中山大学广东省智能交通系统重点实验室广州510275

文献出处：

交通信息与安全

引用格式：

[1]杨璐;王一权;刘佳琦;段玉林;张荣辉-.基于融合离散动作的双延迟深度确定性策略梯度算法的自动驾驶端到端行为决策方法)[J].交通信息与安全,2022(01):144-152

A类：

TD3WD

B类：

合离,双延迟深度确定性策略梯度算法,决策方法,车辆驾驶,驾驶行为决策,学习效率,动作空间,空间网络,端到端自动驾驶,自动驾驶决策,出离,出动,加权融合,Critic,合到,智能体,动作值,预训练,图像特征,特征信息,训练过程,计算成本,Carla,仿真平台,驾驶场景,训练场,DDPG,收敛速度,测试场景,均压,压线,转向盘,端到端决策,深度强化学习

AB值：

0.279853

相似文献

基于逆向强化学习的纵向自动驾驶决策方法

高振海;闫相同;高菲-吉林大学,汽车仿真与控制国家重点实验室,长春 130022

基于场景动力学和强化学习的自动驾驶边缘测试场景生成方法

李江坤;邓伟文;任秉韬;王文奇;丁娟-北京航空航天大学交通科学与工程学院,北京 100191;浙江天行健智能科技有限公司,嘉兴 314000

基于TD3-PER的混合动力履带车辆能量管理

张彬;邹渊;张旭东;杜国栋;孙文景;孙巍-北京理工大学机械与车辆学院,北京 100081

面向自动驾驶汽车测试的交通车辆交互过程建模

蒋渊德;朱冰;赵祥模;赵健;郑兵兵-长安大学信息工程学院,西安 710018;吉林大学,汽车仿真与控制国家重点实验室,长春 130025;中航光电科技股份有限公司,洛阳 471000

基于深度强化学习的智能网联车辆换道轨迹规划方法