航天器轨道追逃博弈多阶段强化学习训练方法|袁利;耿远卓;汤亮;黄煌|空间智能控制技术重点实验室,北京 100094 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

航天器轨道追逃博弈多阶段强化学习训练方法

文献摘要：

针对航天器轨道追逃博弈问题,提出一种多阶段学习训练赋能方法,使得追踪星在终端时刻抵近逃逸星的特定区域,而逃逸星需要通过轨道机动规避追踪星.首先,构建两星的训练策略集,基于逻辑规则设计追踪星和逃逸星的机动策略,通过实时预测对方的终端位置,设计己方的期望位置和脉冲策略,显式给出追逃策略的解析表达式,用于训练赋能;其次,为提升航天器的训练赋能效率及应对未知环境的博弈能力,提出一种基于强化学习技术多模式、分阶段的学习训练方法,先使追踪星和逃逸星分别应对上述逻辑规则引导下的逃逸星和追踪星,完成预训练;再次,开展二次训练,两星都采用邻近策略优化(PPO)策略进行追逃博弈,在博弈中不断调整网络权值,提升决策能力;最后,在仿真环境中验证提出的训练方法的有效性,经过二次训练后,追踪星和逃逸星可有效应对不同策略驱动下的对手,提升追逃成功率.

文献关键词：

轨道追逃;博弈决策;强化学习;训练赋能;多阶段学习

中图分类号：

[1] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 计算机仿真（TP391.9）

[3] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 计算机网络（TP393）

作者姓名：

袁利;耿远卓;汤亮;黄煌

作者机构：

北京控制工程研究所,北京 100094;空间智能控制技术重点实验室,北京 100094

文献出处：

上海航天（中英文）

引用格式：

[1]袁利;耿远卓;汤亮;黄煌-.航天器轨道追逃博弈多阶段强化学习训练方法)[J].上海航天（中英文）,2022(04):33-41

A类：

轨道追逃,多阶段学习,训练赋能

B类：

航天器,追逃博弈,强化学习,学习训练,训练方法,逃逸,特定区域,过轨,轨道机动,机动规避,训练策略,逻辑规则,规则设计,机动策略,实时预测,己方,显式,解析表达式,赋能效率,应对未知,未知环境,学习技术,多模式,分阶段,预训练,策略优化,PPO,权值,决策能力,仿真环境,博弈决策

AB值：

0.323563

相似文献

一种GEO卫星太阳光遮挡轨迹设计与控制方法

黎飞;雷拥军;冯佳佳-北京控制工程研究所,北京100094;空间智能控制技术重点实验室,北京100094

测量不确定的充液航天器自适应鲁棒容错控制

宋晓娟;王宏伟;岳宝增-内蒙古工业大学机械工程学院,呼和浩特010051;内蒙古自治区特种服役智能机器人重点实验室,呼和浩特010051;西北工业大学航天学院,西安710072;北京理工大学宇航学院,北京100081

拦截大气层内机动目标的深度强化学习制导律

邱潇颀;高长生;荆武兴-哈尔滨工业大学航天工程系,哈尔滨150001

考虑移动目标不确定行为方式的轨迹预测方法

颜鹏;郭继峰;白成超-哈尔滨工业大学航天学院,哈尔滨150001

基于深度强化学习的复杂地形适应机器人设计与实验

杨顿;杨帅;于洋;王琪-北京航空航天大学航空科学与工程学院,北京100191

一种高速可变形飞行器智能变形决策方法

张远;黄万伟;聂莹;路坤锋-北京航天自动控制研究所,北京100854;宇航智能控制技术国家级重点实验室,北京100854

体系作战下巡航导弹的动态隐身

马子杰;谢拥军-北京航空航天大学电子信息工程学院,北京100191

多约束多星快响巡察任务规划方法

彭晨远;张进;严冰;周洪喜;罗亚中-国防科技大学空天科学学院,长沙 410073;空天任务智能规划与仿真湖南省重点实验室,长沙 410073

大椭圆轨道高速再入返回的多脉冲轨道控制策略

李革非;郝大功;曹鹏飞;徐海涛-北京航天飞行控制中心,北京100094;航天动力学技术重点实验室,北京100094

脉冲星导航在载人火星探测中的应用

郑伟;李治泽;李连升;王奕迪;宋敏章-国防科技大学空天科学学院空天工程系,长沙410073;北京控制工程研究所,北京100190

基于深度强化学习的多域联合干扰规避

潘筱茜;张姣;刘琰;王杉;陈海涛;赵海涛;魏急波-国防科技大学电子科学学院,湖南长沙 410073;中国人民解放军91428部队,浙江宁波 315456

基于深度强化学习的空间机械臂柔顺捕获控制方法研究

文闻;周元子;周晓东;陶东-北京控制工程研究所,北京100094;精密转动和传动机构长寿命技术北京市重点实验室,北京100094

GEO在轨服务任务建模与强化学习服务序列规划

蔡亚星;王兴龙;朱阅訸-国防科技大学航天科学与工程学院,湖南长沙410073;中国空间技术研究院通信与导航卫星总体部,北京100094

航天器多约束空间抵近掠飞轨迹优化方法

张庆泽;尹龙逊;张强;王博;叶东;王佐伟-哈尔滨工业大学,哈尔滨150001;北京空间飞行器总体设计部,北京100094;北京控制工程研究所,北京100094

航天器快速轨道机动过程中时变转动惯量实时辨识

魏远明;王孟磊;耿云海;吴宝林-国防科技大学空天科学学院,长沙410073;北京宇航系统工程研究所,北京100076;哈尔滨工业大学卫星技术研究所,哈尔滨150001

基于深度神经网络的航天器反交会逃逸方法

陆鹏飞;王悦;石恒;汤亮-北京航空航天大学宇航学院,北京102206;北京控制工程研究所,北京100094;空间智能控制技术重点实验室,北京100094

我国首次火星探测任务飞行控制地面验证过程探讨

高薇-北京航天飞行控制中心

基于深度强化学习的雷达智能决策生成算法

赵家琛;张劲东;李梓瑜-南京航空航天大学电子信息工程学院,南京211100

基于端到端的多尺度月球陨石坑检测方法

庞程程;张华春;张岩岩-中国科学院空天信息创新研究院,北京100090;中国科学院大学电子电气与通信工程学院,北京100049

基于无模型强化学习的雷达波束多阶段管理方法

马智杰;王远航;姜家财;张天贤-电子科技大学信息与通信工程学院,成都611731;中国电子科技集团公司第十研究所,成都610036

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。