首站-论文投稿智能助手
典型文献
航天器轨道追逃博弈多阶段强化学习训练方法
文献摘要:
针对航天器轨道追逃博弈问题,提出一种多阶段学习训练赋能方法,使得追踪星在终端时刻抵近逃逸星的特定区域,而逃逸星需要通过轨道机动规避追踪星.首先,构建两星的训练策略集,基于逻辑规则设计追踪星和逃逸星的机动策略,通过实时预测对方的终端位置,设计己方的期望位置和脉冲策略,显式给出追逃策略的解析表达式,用于训练赋能;其次,为提升航天器的训练赋能效率及应对未知环境的博弈能力,提出一种基于强化学习技术多模式、分阶段的学习训练方法,先使追踪星和逃逸星分别应对上述逻辑规则引导下的逃逸星和追踪星,完成预训练;再次,开展二次训练,两星都采用邻近策略优化(PPO)策略进行追逃博弈,在博弈中不断调整网络权值,提升决策能力;最后,在仿真环境中验证提出的训练方法的有效性,经过二次训练后,追踪星和逃逸星可有效应对不同策略驱动下的对手,提升追逃成功率.
文献关键词:
轨道追逃;博弈决策;强化学习;训练赋能;多阶段学习
作者姓名:
袁利;耿远卓;汤亮;黄煌
作者机构:
北京控制工程研究所,北京 100094;空间智能控制技术重点实验室,北京 100094
引用格式:
[1]袁利;耿远卓;汤亮;黄煌-.航天器轨道追逃博弈多阶段强化学习训练方法)[J].上海航天(中英文),2022(04):33-41
A类:
轨道追逃,多阶段学习,训练赋能
B类:
航天器,追逃博弈,强化学习,学习训练,训练方法,逃逸,特定区域,过轨,轨道机动,机动规避,训练策略,逻辑规则,规则设计,机动策略,实时预测,己方,显式,解析表达式,赋能效率,应对未知,未知环境,学习技术,多模式,分阶段,预训练,策略优化,PPO,权值,决策能力,仿真环境,博弈决策
AB值:
0.323563
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。