典型文献
基于end-to-end深度强化学习的多车场车辆路径优化
文献摘要:
为提高多车场车辆路径问题(multi-depot vehicle routing problem,MDVRP)的求解效率,提出了端到端的深度强化学习框架.首先,将MDVRP建模为马尔可夫决策过程(Markov decision process,MDP),包括对其状态、动作、收益的定义;同时,提出了改进图注意力网络(graph attention network,GAT)作为编码器对MDVRP的图表示进行特征嵌入编码,设计了基于Transformer的解码器;采用改进REINFORCE算法来训练该模型,该模型不受图的大小约束,即其一旦完成训练,就可用于求解任意车场和客户数量的算例问题.最后,通过随机生成的算例和公开的标准算例验证了所提出框架的可行性和有效性,即使在求解客户节点数为100的MDVRP上,经训练的模型平均仅需2 ms即可得到与现有方法相比更具优势的解.
文献关键词:
多车场车辆路径问题;深度强化学习;图神经网络;REINFORCE算法;Transformer模型
中图分类号:
作者姓名:
雷坤;郭鹏;王祺欣;赵文超;唐连生
作者机构:
西南交通大学机械工程学院,成都610031;西南交通大学轨道交通运维技术与装备四川省重点实验室,成都610031;宁波工程学院 经济与管理学院,浙江 宁波315211
文献出处:
引用格式:
[1]雷坤;郭鹏;王祺欣;赵文超;唐连生-.基于end-to-end深度强化学习的多车场车辆路径优化)[J].计算机应用研究,2022(10):3013-3019
A类:
多车场车辆路径问题,MDVRP,REINFORCE
B类:
end,深度强化学习,车辆路径优化,multi,depot,vehicle,routing,problem,求解效率,端到端,马尔可夫决策过程,Markov,decision,process,MDP,图注意力网络,graph,attention,network,GAT,编码器,图表,特征嵌入,入编,Transformer,解码器,解任,户数,算例验证,经训,模型平均,ms,图神经网络
AB值:
0.326619
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。