典型文献
基于深度强化学习的多目标无人机路径规划
文献摘要:
在搜救领域中,透过程序完成半自主或自主飞行控制,无人机能够协助救难人员更好地完成救援任务.搜救任务中涉及到多个目标间的搜索,相比于单目标的搜索问题,需要更复杂的算法或是奖励重塑形式,才能改进其稀疏奖励的问题.此外,搜救任务比起一般的强化学习问题,更讲究时效性.如何利用搜救的先验知识对算法进行改进,从而提高完成任务的效率和训练时间,是机器学习应用的研究重点.针对搜救任务背景,研究了无人机在多目标问题下的路径规划问题.基于分层学习的概念对已有的深度强化学习算法进行了改进,提出了适用于多目标任务的深度强化学习算法——MTDDPG.该算法结合环境分区和奖励重塑,利用环境分区对搜救场景进行简化,从而缩短训练时间,再通过奖励重塑的方式提升任务完成的效率,提升了MTDDPG算法在多目标搜救任务上的训练速度和效率.利用程序仿真设计三个实验对算法进行验证,并基于不同的先验信息对环境进行建模实验,对比不同算法在多目标任务中的实验结果.此外,根据先验信息的完整与否,对比MTDDPG在不同先验信息完整度的场景下训练的结果,结果表明MTDDPG在多目标搜救任务上,可以有效地解决搜索问题,完成指定的搜救任务.
文献关键词:
多目标;稀疏奖励;分层学习;室内搜救;无人机
中图分类号:
作者姓名:
陈昱宏;高飞飞
作者机构:
清华大学 自动化系信息处理研究所,北京100084
文献出处:
引用格式:
[1]陈昱宏;高飞飞-.基于深度强化学习的多目标无人机路径规划)[J].无线电通信技术,2022(06):957-970
A类:
MTDDPG,室内搜救
B类:
无人机路径规划,自主飞行,飞行控制,救难,单目标,塑形,稀疏奖励,比起,学习问题,讲究,先验知识,完成任务,训练时间,学习应用,多目标问题,题下,规划问题,分层学习,深度强化学习算法,目标任务,合环,救场,短训,过奖,升任,任务完成,训练速度,仿真设计,先验信息,不同先验,完整度
AB值:
0.309715
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。