首站-论文投稿智能助手
典型文献
基于多智能体强化学习的轨道追逃博弈方法
文献摘要:
针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法.首先通过对博弈场景进行建模,在考虑最短时间、最优燃料以及碰撞规避的情形下进行奖励函数的塑造和改进,利用深度强化学习方法中的多智能体深度确定性策略梯度(MADDPG)算法进行集中训练,得到各个追捕卫星和逃逸卫星的最优追逃策略参数;然后分布式执行使得多个追捕卫星和逃逸卫星之间能够完成追逃博弈.仿真结果表明:该方法能够完成集群卫星对非合作目标的追逃博弈,且能够利用数量优势有效地弥补速度劣势,涌现出"围捕""拦截""合作""潜伏"等一系列智能博弈行为,有效地实现了博弈目的.
文献关键词:
集群卫星;非合作目标;追逃博弈;奖励塑造;多智能体深度确定性策略梯度算法;涌现;智能
作者姓名:
许旭升;党朝辉;宋斌;袁秋帆;肖余之
作者机构:
上海宇航系统工程研究所,上海201109;西北工业大学 航天学院,陕西 西安710109
引用格式:
[1]许旭升;党朝辉;宋斌;袁秋帆;肖余之-.基于多智能体强化学习的轨道追逃博弈方法)[J].上海航天(中英文),2022(02):24-31
A类:
轨道追逃,集群卫星,奖励塑造
B类:
多智能体强化学习,追逃博弈,博弈方法,空间轨道,非合作目标,星间,多智能体深度强化学习,深度强化学习算法,星空,碰撞规避,奖励函数,强化学习方法,MADDPG,追捕,逃逸,涌现出,围捕,拦截,智能博弈,博弈行为,多智能体深度确定性策略梯度算法
AB值:
0.201036
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。