首站-论文投稿智能助手
典型文献
基于改进强化学习的模块化自重构机器人编队
文献摘要:
针对传统强化学习算法在训练初期缺乏对周围环境的先验知识,模块化自重构机器人会随机选择动作,导致迭代次数浪费和算法收敛速度缓慢的问题,提出一种两阶段强化学习算法.在第一阶段,利用基于群体和知识共享的Q-learning训练机器人前往网格地图的中心点,以获得一个最优共享Q表.在这个阶段中,为了减少迭代次数,提高算法的收敛速度,引入了曼哈顿距离作为奖赏值,以引导机器人向有利于中心点方向移动,减小稀疏奖励的影响.在第二阶段,机器人根据这个最优共享Q表和当前所处的位置,找到前往指定目标点的最优路径,形成指定的队形.实验结果表明,在50×50的网格地图中,与对比算法相比,该算法成功训练机器人到达指定目标点,减少了将近50%的总探索步数.此外,当机器人进行队形转换时,编队运行时间减少了近5倍.
文献关键词:
模块化自重构机器人;强化学习;多机器人;编队
作者姓名:
李伟科;岳洪伟;王宏民;杨勇;赵敏;邓辅秦
作者机构:
五邑大学智能制造学部,广东江门 529020;中电科普天科技股份有限公司研发中心,广东广州 510310;深圳市杉川机器人有限公司,广东深圳 518006;深圳市人工智能与机器人研究院,广东深圳 518116
引用格式:
[1]李伟科;岳洪伟;王宏民;杨勇;赵敏;邓辅秦-.基于改进强化学习的模块化自重构机器人编队)[J].计算技术与自动化,2022(03):6-13
A类:
模块化自重构机器人
B类:
机器人编队,强化学习算法,周围环境,先验知识,随机选择,迭代次数,和算,收敛速度,两阶段,第一阶段,知识共享,learning,前往,网格地图,中心点,曼哈顿距离,奖赏,稀疏奖励,第二阶段,标点,最优路径,队形,对比算法,将近,步数,运行时间,多机器人
AB值:
0.307356
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。