多步积累奖励的双重时序Q网络算法|朱威;谯先锋;陈艺楷;何德峰 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

多步积累奖励的双重时序Q网络算法

文献摘要：

车辆行驶控制决策是无人驾驶的核心技术,现有基于深度强化学习的无人驾驶控制决策算法存在处理数据效率低、无法有效提取状态间时序特征等问题.因此本文提出了一种基于多步积累奖励的双重时序Q网络算法.首先,设计了一种多步积累奖励方法,该方法对未来多步即时奖励的累加和进行均值化,与当前即时奖励共同作用于智能体的控制策略,并在奖励函数中突出当前即时奖励的主导影响.接着设计了一种长短期记忆网络和卷积神经网络相结合的时序网络结构,增强智能体对数据间时序特征的捕获能力.实验结果验证了时序网络和多步积累奖励方法有助于提升智能体收敛速度,其中DQN,DDQN使用时序网络后,收敛速度分别提升了21.9％,26.8％;本文算法在Carla仿真平台典型的Town01,Town02场景中的控制得分比DDQN,TD3算法分别高了36.1％,24.6％,以及在复杂的Town03场景中针对不同线路表现出了更好的泛化性能.这些结果都表明本文算法能够有效的提升数据利用效率,并具备良好的控制能力和泛化能力.

文献关键词：

深度强化学习;无人车;多步积累奖励;时序网络;数据利用率

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18）

[3] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 自动推理、机器学习（TP181）

作者姓名：

朱威;谯先锋;陈艺楷;何德峰

作者机构：

浙江工业大学信息工程学院,浙江杭州310023

文献出处：

控制理论与应用

引用格式：

[1]朱威;谯先锋;陈艺楷;何德峰-.多步积累奖励的双重时序Q网络算法)[J].控制理论与应用,2022(02):222-230

A类：

多步积累奖励,Town01,Town02,Town03

B类：

网络算法,车辆行驶,控制决策,无人驾驶,深度强化学习,驾驶控制,决策算法,有效提取,取状,时序特征,累加,智能体,奖励函数,长短期记忆网络,时序网络,增强智能,获能,收敛速度,DDQN,Carla,仿真平台,TD3,同线,泛化性能,控制能力,泛化能力,无人车,数据利用率

AB值：

0.261099

相似文献

基于逆向强化学习的纵向自动驾驶决策方法

高振海;闫相同;高菲-吉林大学,汽车仿真与控制国家重点实验室,长春 130022

基于注意力多通道卷积ON-LSTM的APU剩余寿命预测

白春垣;孙有朝-南京航空航天大学民航学院,南京 211106

端对端长短时序特征的轴承故障诊断

黎红志;唐向红;陆见光;杨青;何强-贵州大学现代制造技术教育部重点实验室,贵阳 550025;贵州大学公共大数据国家重点实验室,贵阳 550025

基于CNN_BiLSTM的长短期电力负荷预测方法

王欢;李鹏;曹敏;孙煜皓-云南大学信息学院,云南昆明650500;云南电网有限责任公司电力科学研究院,云南昆明650217;中科智能(深圳)科技有限公司,广东深圳518000

基于SAE与CEEMDAN-BiLSTM组合模型的短期电力负荷预测

黄炜;陈田-上海电机学院机械学院上海200120

基于多智能体强化学习的社交网络舆情增强一致性方法

谢光强;许浩然;李杨;陈广福-广东工业大学计算机学院, 广东广州 510006

基于随机策略搜索的多机三维路径规划方法

张森;张孟炎;邵敬平;普杰信-河南科技大学信息工程学院,河南洛阳471023

基于协作式深度强化学习的火灾应急疏散仿真研究

倪凌佳;黄晓霞;李红旮;张子博-中国科学院空天信息创新研究院,北京100094;中国科学院大学,北京100049;自然资源部城市国土资源监测与仿真重点实验室,深圳518034

PSO优化的BiLSTM-Attention网络的锂电池健康状态评估

张永;辛宇琪;钱启政;解进;冉少林-武汉科技大学信息科学与工程学院,湖北武汉430081;武汉华夏理工学院信息工程学院,湖北武汉430223;华中科技大学人工智能与自动化学院,湖北武汉430074

基于改进A2C目标驱动的室内无地图导航方法

王彦臻;胡晗;李文倩;袁士博;和望利-华东理工大学信息科学与工程学院,上海200237;华东理工大学能源化工过程智能制造教育部重点实验室,上海200237

基于深度强化学习的湿法脱硫系统运行优化

吴磊;康英伟-上海电力大学自动化工程学院,上海200090

基于LSTM-CNN的中小企业信用风险预测

王鑫;王莹-北京信息科技大学经济管理学院,北京100192;智能决策与大数据应用北京市国际科技合作基地,北京 100192

一种时空协同的图卷积长短期记忆网络及其工业软测量应用

常树超;赵春晖-浙江大学控制科学与工程学院,杭州310027

基于强化学习的地铁站空调系统节能控制

焦焕炎;冯浩东;魏东;冉义兵;胡朝文-北京建筑大学电气与信息工程学院,北京100044;建筑大数据智能处理方法研究北京市重点实验室,北京100044;北京兴创置地房地产开发有限公司,北京102600

人群环境中基于深度强化学习的移动机器人避障算法

孙立香;孙晓娴;刘成菊;靖文-盐城工业职业技术学院智能制造学院,江苏盐城 224005;同济人工智能(苏州)研究院,江苏苏州 215131;同济大学电子与信息工程学院,上海 201804

并行深度强化学习的柴油机动力系统VGT智能控制

赖晨光;伍朝兵;李家曦;孙友长;胡博-重庆理工大学汽车零部件制造及检测技术教育部重点实验室,重庆 400054;重庆理工大学车辆工程学院,重庆 400054

藏族久棋的一种两阶段计算机博弈算法

李霞丽;陈彦东;杨子熠;张焱垠;吴立成-中央民族大学信息工程学院, 北京 100081

一种多重优先经验回放的麻将游戏数据利用方法

李淑琴;李奕-北京信息科技大学计算机学院, 北京 100101;感知与计算智能联合实验室, 北京 100101

基于CNN-LSTM的脑电P300信号检测

范方朝;杜欣;谢城壁;刘佳伟;黄涌-北京交通大学电气工程学院北京100091;蓝色传感(北京)科技有限公司北京100085

基于强化学习的艾灸机器人温度控制策略研究

张博;黄山;张浛芮;李应昆;涂海燕-四川大学电气工程学院成都610065;四川省成都市第五人民医院康复医学科成都611130;四川省成都中医药大学附属医院针灸康复科成都610072

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。