首站-论文投稿智能助手
典型文献
基于改进DDPG算法的复杂环境下AGV路径规划方法研究
文献摘要:
为了提高AGV(automatic guided vehicle)在复杂未知环境下的搜索能力,提出了一种改进的深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法.该算法通过构建经验回放矩阵和双层网络结构提高算法的收敛速度,并将波尔兹曼引入到ε-greedy搜索策略中,解决了AGV在选择最优动作时的局部最优问题;针对深度神经网络训练速度缓慢的问题,将优先级采样应用于深度确定性策略梯度算法中;为解决普通优先级采样复杂度过高的问题,提出了利用小批量优先采样方法训练网络.为了验证方法的有效性,通过栅格法建模并在不同的复杂环境下进行仿真实验对比,比较了不同算法的损失函数、迭代次数和回报值.实验结果表明,所提改进算法与原算法相比损失函数减小、迭代次数减少、回报值增加,验证了算法的有效性,同时为AGV在复杂环境下能够更加安全且快速地完成规划任务提供了新的思路.
文献关键词:
深度学习;自动化导引车路径规划;深度确定性策略梯度算法;小批量优先采样
作者姓名:
孟晨阳;郝崇清;李冉;王晓博;王昭雷;赵江
作者机构:
河北科技大学 电气工程学院,石家庄 050018;河北工业职业技术大学 智能制造系,石家庄 050091;河北省电力有限公司,石家庄050051
文献出处:
引用格式:
[1]孟晨阳;郝崇清;李冉;王晓博;王昭雷;赵江-.基于改进DDPG算法的复杂环境下AGV路径规划方法研究)[J].计算机应用研究,2022(03):681-687
A类:
小批量优先采样,栅格法建模,自动化导引车路径规划
B类:
DDPG,复杂环境,AGV,路径规划方法,automatic,guided,vehicle,复杂未知环境,搜索能力,deep,deterministic,policy,gradient,经验回放,矩阵和,双层网络,收敛速度,波尔兹曼,greedy,搜索策略,局部最优,深度神经网络,神经网络训练,训练速度,优先级,深度确定性策略梯度算法,采样方法,方法训练,验证方法,实验对比,损失函数,迭代次数,报值,改进算法,成规
AB值:
0.298137
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。