典型文献
基于元强化学习的无人机自主避障与目标追踪
文献摘要:
针对传统深度强化学习在求解无人机自主避障与目标追踪任务时所存在的训练效率低、环境适应性差的问题,在深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法中融入与模型无关的元学习(Model-Agnostic Meta-Learning,MAML),设计一种内外部元参数更新规则,提出了元深度确定性策略梯度(Meta-Deep Deterministic Policy Gradi-ent,Meta-DDPG)算法,以提升模型的收敛速度和泛化能力.此外,在模型预训练部分构造基本元任务集以提升实际工程中的预训练效率.最后,在多种测试环境下对所提算法进行了仿真验证,结果表明基本元任务集的引入可使模型预训练效果更优,Meta-DDPG算法相比DDPG算法在收敛特性和环境适应性方面更有优势,并且元学习方法和基本元任务集对确定性策略强化学习具有通用性.
文献关键词:
元强化学习;无人机;自主避障;目标追踪;路径规划
中图分类号:
作者姓名:
江未来;吴俊;王耀南
作者机构:
湖南大学电气与信息工程学院,湖南长沙410082;湖南大学机器人视觉感知与控制技术国家工程研究中心,湖南长沙410082
文献出处:
引用格式:
[1]江未来;吴俊;王耀南-.基于元强化学习的无人机自主避障与目标追踪)[J].湖南大学学报(自然科学版),2022(06):101-109
A类:
元强化学习,Gradi
B类:
自主避障,目标追踪,深度强化学习,训练效率,环境适应性,深度确定性策略梯度,Deep,Deterministic,Policy,Gradient,DDPG,元学习,Model,Agnostic,Learning,MAML,种内,参数更新,新规则,收敛速度,泛化能力,预训练,训练部,本元,元任务,测试环境,仿真验证,训练效果,收敛特性,通用性,路径规划
AB值:
0.316793
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。