首站-论文投稿智能助手
典型文献
多步积累奖励的双重时序Q网络算法
文献摘要:
车辆行驶控制决策是无人驾驶的核心技术,现有基于深度强化学习的无人驾驶控制决策算法存在处理数据效率低、无法有效提取状态间时序特征等问题.因此本文提出了一种基于多步积累奖励的双重时序Q网络算法.首先,设计了一种多步积累奖励方法,该方法对未来多步即时奖励的累加和进行均值化,与当前即时奖励共同作用于智能体的控制策略,并在奖励函数中突出当前即时奖励的主导影响.接着设计了一种长短期记忆网络和卷积神经网络相结合的时序网络结构,增强智能体对数据间时序特征的捕获能力.实验结果验证了时序网络和多步积累奖励方法有助于提升智能体收敛速度,其中DQN,DDQN使用时序网络后,收敛速度分别提升了21.9%,26.8%;本文算法在Carla仿真平台典型的Town01,Town02场景中的控制得分比DDQN,TD3算法分别高了36.1%,24.6%,以及在复杂的Town03场景中针对不同线路表现出了更好的泛化性能.这些结果都表明本文算法能够有效的提升数据利用效率,并具备良好的控制能力和泛化能力.
文献关键词:
深度强化学习;无人车;多步积累奖励;时序网络;数据利用率
作者姓名:
朱威;谯先锋;陈艺楷;何德峰
作者机构:
浙江工业大学信息工程学院,浙江杭州310023
文献出处:
引用格式:
[1]朱威;谯先锋;陈艺楷;何德峰-.多步积累奖励的双重时序Q网络算法)[J].控制理论与应用,2022(02):222-230
A类:
多步积累奖励,Town01,Town02,Town03
B类:
网络算法,车辆行驶,控制决策,无人驾驶,深度强化学习,驾驶控制,决策算法,有效提取,取状,时序特征,累加,智能体,奖励函数,长短期记忆网络,时序网络,增强智能,获能,收敛速度,DDQN,Carla,仿真平台,TD3,同线,泛化性能,控制能力,泛化能力,无人车,数据利用率
AB值:
0.261099
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。