典型文献
基于探索-利用权衡优化的Q学习路径规划
文献摘要:
针对移动智能体在未知环境下的路径规划问题,提出了基于探索-利用权衡优化的Q学习路径规划.对强化学习方法中固有的探索-利用权衡问题,提出了探索贪婪系数ε值随学习幕数平滑衰减的εDBE(ε-decreasing based episodes)方法和根据Q表中的状态动作值判断到达状态的陌生/熟悉程度、做出探索或利用选择的AεBS(adaptiveεbased state)方法,这一改进确定了触发探索和触发利用的情况,避免探索过度和利用过度,能加快找到最优路径.在未知环境下对基于探索-利用权衡优化的Q学习路径规划与经典的Q学习路径规划进行仿真实验比较,结果表明该方法的智能体在未知障碍环境情况下具有快速学习适应的特性,最优路径步数收敛速度更快,能更高效实现路径规划,验证了该方法的可行性和高效性.
文献关键词:
强化学习;Q学习;探索-利用;路径规划;未知环境
中图分类号:
作者姓名:
彭云建;梁进
作者机构:
华南理工大学 自动化科学与工程学院,广东 广州 510640
文献出处:
引用格式:
[1]彭云建;梁进-.基于探索-利用权衡优化的Q学习路径规划)[J].计算机技术与发展,2022(04):1-7
A类:
B类:
用权,学习路径,路径规划,移动智能,智能体,未知环境,规划问题,强化学习方法,中固,贪婪,DBE,decreasing,episodes,动作值,陌生,BS,adaptive,state,最优路径,划进,学习适应,步数,收敛速度
AB值:
0.403372
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。