典型文献
强化学习算法在高速铁路运营调度中的应用
文献摘要:
随着我国高速铁路(简称:高铁)通达范围和行车密度的不断提高,运行计划调整日趋复杂,利用计算机和人工智能等技术手段辅助调度员制定阶段调整计划是高铁智能调度的发展趋势.高铁运行计划调整问题是一个多阶段决策问题,具有决策链长、规模大、约束多等特点,导致传统的强化学习方法Q学习算法的学习效率低、收敛缓慢.文章提出一种基于Q(λ)学习的高铁运行计划智能调整算法,采用累积式资格迹设计多步奖励更新机制,有效解决稀疏奖励下收敛慢的问题,目标函数设计中充分考虑了股道运用计划,更适合反应行车密度增大时到发线的使用情况.仿真实验表明,Q(λ)学习算法在学习效率、收敛速度和收敛结果上均优于传统的Q学习算法.
文献关键词:
高速铁路;调度算法;股道运用计划;资格迹;Q(λ)学习
中图分类号:
作者姓名:
吴越;袁志明;代学武;崔东亮;程丽娟;岳鹏
作者机构:
东北大学 流程工业综合自动化国家重点实验室,沈阳 110819;中国铁道科学研究院集团有限公司 通信信号研究所,北京 100081
文献出处:
引用格式:
[1]吴越;袁志明;代学武;崔东亮;程丽娟;岳鹏-.强化学习算法在高速铁路运营调度中的应用)[J].铁路计算机应用,2022(07):92-98
A类:
资格迹,股道运用计划
B类:
强化学习算法,高速铁路,铁路运营,运营调度,通达,运行计划,计划调整,整日,利用计算机,调度员,定阶,调整计划,智能调度,铁运,一个多,多阶段决策,决策问题,链长,强化学习方法,学习效率,智能调整,多步,更新机制,稀疏奖励,到发线,收敛速度,调度算法
AB值:
0.358968
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。