基于改进强化学习的模块化自重构机器人编队|李伟科;岳洪伟;王宏民;杨勇;赵敏;邓辅秦|中电科普天科技股份有限公司研发中心,广东广州 510310 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

基于改进强化学习的模块化自重构机器人编队

文献摘要：

针对传统强化学习算法在训练初期缺乏对周围环境的先验知识,模块化自重构机器人会随机选择动作,导致迭代次数浪费和算法收敛速度缓慢的问题,提出一种两阶段强化学习算法.在第一阶段,利用基于群体和知识共享的Q-learning训练机器人前往网格地图的中心点,以获得一个最优共享Q表.在这个阶段中,为了减少迭代次数,提高算法的收敛速度,引入了曼哈顿距离作为奖赏值,以引导机器人向有利于中心点方向移动,减小稀疏奖励的影响.在第二阶段,机器人根据这个最优共享Q表和当前所处的位置,找到前往指定目标点的最优路径,形成指定的队形.实验结果表明,在50×50的网格地图中,与对比算法相比,该算法成功训练机器人到达指定目标点,减少了将近50％的总探索步数.此外,当机器人进行队形转换时,编队运行时间减少了近5倍.

文献关键词：

模块化自重构机器人;强化学习;多机器人;编队

中图分类号：

[1] 自动化技术、计算机技术（TP） / 自动化技术及设备（TP2） / 机器人技术（TP24） / 机器人（TP242） / 工业机器人（TP242.2）

[2] 自动化技术、计算机技术（TP） / 自动化技术及设备（TP2） / 机器人技术（TP24） / 机器人（TP242） / 智能机器人（TP242.6）

[3] 自动化技术、计算机技术（TP） / 自动化技术及设备（TP2） / 机器人技术（TP24）

作者姓名：

李伟科;岳洪伟;王宏民;杨勇;赵敏;邓辅秦

作者机构：

五邑大学智能制造学部,广东江门 529020;中电科普天科技股份有限公司研发中心,广东广州 510310;深圳市杉川机器人有限公司,广东深圳 518006;深圳市人工智能与机器人研究院,广东深圳 518116

文献出处：

计算技术与自动化

引用格式：

[1]李伟科;岳洪伟;王宏民;杨勇;赵敏;邓辅秦-.基于改进强化学习的模块化自重构机器人编队)[J].计算技术与自动化,2022(03):6-13

A类：

模块化自重构机器人

B类：

机器人编队,强化学习算法,周围环境,先验知识,随机选择,迭代次数,和算,收敛速度,两阶段,第一阶段,知识共享,learning,前往,网格地图,中心点,曼哈顿距离,奖赏,稀疏奖励,第二阶段,标点,最优路径,队形,对比算法,将近,步数,运行时间,多机器人

AB值：

0.307356

相似文献

基于输出反馈线性化的多移动机器人目标包围控制

寇立伟;项基-浙江大学工业控制技术国家重点实验室杭州310027;浙江大学电气工程学院杭州310027

基于改进高斯混合模型的机器人运动状态估计

葛泉波;王贺彬;杨秦敏;张兴国;刘华平-南京信息工程大学自动化学院南京210044;淳安县千岛湖科学研究院杭州311799;浙江大学控制科学与工程学院杭州310027;中国飞行试验研究院西安710089;清华大学计算机科学与技术系北京100084

基于GPR和深度强化学习的分层人机协作控制

金哲豪;刘安东;俞立-浙江工业大学信息工程学院杭州 310023

面向综合能源系统的多智能体协同AGC策略

席磊;王昱昊;陈宋宋;陈珂;孙梦梦;周礼鹏-三峡大学电气与新能源学院,湖北宜昌443002;中国电力科学研究院有限公司需求侧多能互补优化与供需互动技术北京市重点实验室,北京100192

一种基于深度强化学习算法的电网有功安全校正方法

孙立钧;顾雪平;刘彤;王铁强;杨晓东-华北电力大学电气与电子工程学院,河北保定 071003;国网河北省电力有限公司,河北石家庄 050021

模块化自重构机器人关键技术综述及研究展望

张岩;王晴;康永霖;豆小超;丁宇鹏;王亚彬-河北科技大学电气工程学院,河北石家庄 050018

自动化机器人轨迹跟踪与路径规划技术研究

杨金铎;王林波;曾惜;王冕;周慧-贵州电网有限责任公司贵阳供电局,贵州贵阳 550001;广州中科云图智能科技有限公司,广东广州 510180

基于改进蚁群算法的巡检机器人避障路径规划方法设计

李鹏;闵小翠;王建华-广州华立科技职业学院,广东广州511325

改进Q学习算法在多智能体强化学习中的应用

赵德京;马洪聪;王家曜;周维庆-青岛大学自动化学院,山东青岛266071;青岛石化检修安装工程有限责任公司,山东青岛266043

基于协同强化学习的微电网分布式两级电压优化控制

汪超;赵婵娟;程志友;宋俊材-安徽大学电子信息工程学院,安徽合肥 230601;安徽大学互联网学院,安徽合肥 230039

基于ROS和PX4飞控的四轮驱动移动机器人研究

周小华;吴涛;李博;孙家辉-昆明理工大学机电工程学院,云南昆明 650500;成都铂贝科技有限公司(阿木实验室)研发部,四川成都 611730

基于深度强化学习的无人船全覆盖路径规划

宋大雷;吕昆岭;陈小平;干文浩;曹江丽-中国海洋大学工程学院,山东青岛 266100;中国海洋大学海洋高等研究院,山东青岛 266100;中国海洋大学基础教学中心,山东青岛266100;中国船舶重工集团公司第七〇九研究所,湖北武汉430205

基于深度学习的智能机器人自主跟随算法研究

龚波涛;汪孔屏;张雷-国网上海市电力公司工程建设咨询分公司,上海200120

基于STM32的便携式智能配电一体化移动终端控制系统研究

刘栋;张建鹏-新疆工程学院,新疆乌鲁木齐830023

基于5G的强化学习算法分析与挑战

董春利;王莉-南京交通职业技术学院电子信息工程学院,江苏南京,211188

并行深度强化学习的柴油机动力系统VGT智能控制

赖晨光;伍朝兵;李家曦;孙友长;胡博-重庆理工大学汽车零部件制造及检测技术教育部重点实验室,重庆 400054;重庆理工大学车辆工程学院,重庆 400054

融合优化A∗算法与动态窗口法的动态路径规划算法研究

姚进鑫;刘丽桑;何栋炜;陈健;王斌;徐辉;郭江峰;陈炜-福建工程学院电子电气与物理学院,福州 350118;福建工程学院福建省工业集成自动化行业技术开发基地,福州 350118;福建工程学院电子信息与电气技术国家级实验教学示范中心,福州 350118

方向性JPS的移动机器人全局路径规划方法

马少博;王立勇;丁炳超;王超;苏清华-北京信息科技大学现代测控技术教育部重点实验室, 北京 100192

基于强化学习的四足机器人牵引运动控制研究

秦建军;孟圆;曹钰;江磊;苏波-北京建筑大学机电与车辆工程学院, 北京 100044;北京市建筑安全监测工程技术研究中心, 北京 100044;中国北方车辆研究所, 北京 100072

DWA算法和VO混合路径规划算法对比研究

陈劲宇;王坤;王硕;樊世杰;麻琦昌;李冬梅;王红波-吉林大学电子科学与工程学院,长春130012;中国工商银行吉林省分行金融科技部,长春130061

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。