首站-论文投稿智能助手
典型文献
基于深度强化学习的车辆路径问题求解方法
文献摘要:
车辆路径问题作为交通运输与物流领域最为经典的组合运筹优化问题,历经几十年的研究和讨论经久不衰,智慧物流呈现出的数据规模大、不确定性强、时效性高等特点,给高效、智能地解决车辆路径问题提出了新的挑战,推动了利用人工智能方法解决车辆路径问题研究的发展.目前,有部分国内外学者对深度强化学习在车辆路径问题中的应用进行了研究,但所得结果尚有一定的优化空间.基于此,本文提出了一种基于上置信区间算法改进动作选择的深度Q网络方法.该深度强化学习方法通过定义智能体与环境交互过程,逐一选取节点构造解的方式"端到端"地解决车辆路径问题.首先,针对考虑车辆装载约束的车辆路径问题建立了深度强化学习框架,设计了该场景下的深度强化学习优化目标和马尔可夫决策过程,通过状态-动作空间、奖励函数等要素的设置完善了该过程;并基于Transformer框架的注意力机制、修正线性单元的神经元激活函数和自适应动量估计梯度下降算法的反向传播机制设计了一个状态-动作价值网络.其次,针对DQN方法的值函数过估计和探索局限问题,运用UCT算法改进了动作选择方式,以提高该方法的性能和收敛性.实验结果表明:改进后的DQN方法在实验中表现良好,所提方法应用在考虑装载能力约束的车辆路径问题中,相比传统DQN方法,在20、50、100的问题规模中实验结果分别提升了1.89%、1.10%和2.17%,证明该方法具有较好的性能和泛化能力.
文献关键词:
信息技术;车辆路径问题;深度强化学习;深度Q网络;Transformer框架;上置信区间算法
作者姓名:
黄琰;张锦
作者机构:
西南交通大学,交通运输与物流学院,成都611756;综合交通运输智能化国家地方联合工程实验室,成都611756;综合交通大数据应用技术国家工程实验室,成都611756
引用格式:
[1]黄琰;张锦-.基于深度强化学习的车辆路径问题求解方法)[J].交通运输工程与信息学报,2022(03):114-127
A类:
上置信区间算法
B类:
深度强化学习,车辆路径问题,问题求解,求解方法,物流领域,运筹优化,优化问题,经久不衰,智慧物流,人工智能方法,分国,尚有,算法改进,进动,强化学习方法,智能体,节点构造,端到端,学习优化,优化目标,马尔可夫决策过程,动作空间,奖励函数,Transformer,注意力机制,正线,激活函数,梯度下降算法,反向传播,传播机制,机制设计,作价,价值网络,DQN,值函数,局限问题,UCT,收敛性,装载能力,能力约束,泛化能力
AB值:
0.287167
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。