不确定环境下的深度强化学习编队避障控制|禹鑫燚;杜丹枫;欧林林 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

不确定环境下的深度强化学习编队避障控制

文献摘要：

多智能体编队避障控制的目的在于保持多智能体队形的同时完成避障.针对复杂环境的随机性和不确定性,提出了一种不确定环境下的深度强化学习编队避障控制方法.首先,设计了价值评估网络来增加多智能体编队过程中触碰障碍物或者到达期望位置这些特殊动作的经验,使智能体更快地理解环境规则.其次,在智能体选择动作时,基于贪心策略,对动作选择策略进行改进以提高智能体的学习效率.再次,设计了样本存储空间,在增加样本的利用率的同时提高模型训练效率,并且在决策阶段结合多步学习算法使价值估计更准确.最后,将提出的方法与其他算法进行了对比实验.仿真结果表明提出的方法能使多个智能体在维持队形的同时进行避障,并且有效地提高了智能体学习效率.

文献关键词：

深度强化学习;避障;编队控制;多智能体;神经网络

中图分类号：

[1] 自动化技术、计算机技术（TP） / 自动化技术及设备（TP2） / 自动化系统（TP27） / 自动控制、自动控制系统（TP273）

[2] 自动化技术、计算机技术（TP） / 自动化技术及设备（TP2） / 机器人技术（TP24） / 机器人（TP242）

[3] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18）

作者姓名：

禹鑫燚;杜丹枫;欧林林

作者机构：

浙江工业大学信息工程学院杭州 310023

文献出处：

高技术通讯

引用格式：

[1]禹鑫燚;杜丹枫;欧林林-.不确定环境下的深度强化学习编队避障控制)[J].高技术通讯,2022(08):836-844

A类：

B类：

不确定环境,深度强化学习,编队避障控制,多智能体编队,队形,复杂环境,随机性,价值评估,障碍物,解环,环境规则,贪心策略,动作选择策略,高智能,学习效率,存储空间,模型训练,训练效率,决策阶段,多步,编队控制

AB值：

0.262019

相似文献

基于序贯博弈多智能体强化学习的综合模块化航空电子系统重构方法

张涛;张文涛;代凌;陈婧怡;王丽;魏倩茹-西北工业大学软件学院,陕西西安710065

基于多智能体深度强化学习的分布式协同干扰功率分配算法

饶宁;许华;蒋磊;宋佰霖;史蕴豪-空军工程大学信息与导航学院,陕西西安710077

稀疏奖励场景下基于个体落差情绪的多智能体协作算法

王浩;汪京;方宝富-合肥工业大学计算机与信息学院合肥230601;合肥工业大学情感计算与先进智能机器安徽省重点实验室合肥230601

问题设定驱动的深度强化学习研究:综述

张政锋;赵彬琦;单洪明;张军平-复旦大学上海智能信息处理重点实验室上海 200438;复旦大学计算机科学技术学院上海 200438;复旦大学类脑智能科学与技术研究院上海 200433

智能博弈对抗中的对手建模方法及其应用综述

魏婷婷;袁唯淋;罗俊仁;张万鹏-国防科技大学智能科学学院,长沙 410073

动态环境下分布式异构多机器人避障方法研究

欧阳勇平;魏长赟;蔡帛良-河海大学机电工程学院,江苏常州213022;英国卡迪夫大学工学院,威尔士卡迪夫CF103A

基于深度强化学习的室内视觉局部路径规划

朱少凯;孟庆浩;金晟;戴旭阳-天津大学电气自动化与信息工程学院机器人与自主系统研究所,天津300072

结合状态预测的深度强化学习交通信号控制

唐慕尧;周大可;李涛-南京航空航天大学自动化学院,南京211100

基于观测空间关系提取的多智能体强化学习

许书卿;臧传治;王鑫;刘鼎;刘玉奇;曾鹏-中国科学院沈阳自动化研究所机器人学国家重点实验室,沈阳 110016;中国科学院网络化控制系统重点实验室,沈阳 110016;中国科学院机器人与智能制造创新研究院,沈阳 110016;中国科学院大学,北京 100049;沈阳工业大学,沈阳 110023

基于多智能体的海外反恐运输投送模型研究

董鹏;石怀斌;史博元;张其霄-海军工程大学管理工程与装备经济系,湖北武汉 430033;联勤保障部队政治工作部,湖北武汉 430033

面向多智能体博弈的并行蒙特卡洛树搜索算法研究

管延霞;刘逊韵;刘运韬;谢旻;徐新海-国防科技大学计算机学院,湖南长沙 410073;军事科学院战争研究院,北京 100091

一种基于多步竞争网络的多智能体协作方法

厉子凡;王浩;方宝富-合肥工业大学计算机与信息学院,合肥 230601

基于深度强化学习的多无人机电力巡检任务规划

马瑞;欧阳权;吴兆香;丛玉华;王志胜-南京航空航天大学自动化学院,江苏南京 211106;南京理工大学紫金学院计算机学院,江苏南京 210023

基于全局引导策略的多智能体火灾疏散研究

张子博;黄晓霞;李红旮;倪凌佳;薛晓萌-中国科学院空天信息创新研究院,北京 100094;中国科学院大学,北京 100049

基于深度强化学习的无人船全覆盖路径规划

宋大雷;吕昆岭;陈小平;干文浩;曹江丽-中国海洋大学工程学院,山东青岛 266100;中国海洋大学海洋高等研究院,山东青岛 266100;中国海洋大学基础教学中心,山东青岛266100;中国船舶重工集团公司第七〇九研究所,湖北武汉430205

纯策略纳什均衡的博弈强化学习

王军;曹雷;陈希亮;陈英;赵芷若-陆军工程大学指挥控制工程学院,南京 210007;东部战区总医院博士后科研工作站,南京 210002

基于改进双重深度Q网络的入侵检测模型

吴亚丽;王君虎;郑帅龙-西安理工大学自动化与信息工程学院,西安 710048;陕西省复杂系统控制与智能信息处理重点实验室,西安 710048

基于强化学习的多路口可变车道协同控制方法

徐小高;夏莹杰;朱思雨;邝砾-浙江大学计算机科学与技术学院,浙江杭州 310027;中南大学计算机学院,湖南长沙 410012

基于强化学习的艾灸机器人温度控制策略研究

张博;黄山;张浛芮;李应昆;涂海燕-四川大学电气工程学院成都610065;四川省成都市第五人民医院康复医学科成都611130;四川省成都中医药大学附属医院针灸康复科成都610072

多指标优化的深度强化学习单交叉口信号控制

任安虎;任洋洋;王瑶-西安工业大学电子信息工程学院西安 710021

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。