典型文献
存在危险区域的路径规划问题研究
文献摘要:
为解决标准强化学习算法无法直接应用于存在危险区域的兵棋推演路径规划这一问题,文章提出了一种特殊的奖励机制,用来引导强化学习算法解决该问题.在此基础上,设计了一种探索率递减变化的方法,并在不同难度的实验环境中对Q学习算法的ε-greedy、轮盘赌、玻尔兹曼探索三种动作选择策略进行了测试.实验结果表明,按照本文设计的探索率递减变化方法设置探索率时,算法的性能优于其他三种动作选择策略,收敛时间至少缩短了38.4%,实时性和准确性基本满足兵棋推演的要求,可用于解决兵棋推演路径规划问题.
文献关键词:
陆战兵棋推演;强化学习;路径规划;Q学习;动作选择策略
中图分类号:
作者姓名:
张震;臧兆祥;郭鸿村;田佩
作者机构:
三峡大学水电工程智能视觉监测湖北省重点实验室;三峡大学计算机与信息学院,湖北宜昌443002
文献出处:
引用格式:
[1]张震;臧兆祥;郭鸿村;田佩-.存在危险区域的路径规划问题研究)[J].长江信息通信,2022(04):14-19
A类:
陆战兵棋推演
B类:
危险区域,路径规划,规划问题,强化学习算法,接应,奖励机制,实验环境,greedy,轮盘赌,玻尔兹曼,动作选择策略,变化方法,设置探索,收敛时间
AB值:
0.264583
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。