典型文献
拦截大气层内机动目标的深度强化学习制导律
文献摘要:
针对大气层内高速机动目标的拦截问题,提出了一种基于双延迟深度确定性策略梯度(TD3)算法的深度强化学习制导律,它直接将交战状态信息映射为拦截弹的指令加速度,是一种端到端、无模型的制导策略.首先,将攻防双方的交战运动学模型描述为适用于深度强化学习算法的马尔科夫决策过程,之后通过合理地设计算法训练所需的交战场景、动作空间、状态空间和网络结构,并引入奖励函数整形和状态随机初始化,构建了完整的深度强化学习制导算法.仿真结果表明:与比例导引和增强比例导引两种方案相比,深度强化学习制导策略在脱靶量更小的同时能够降低对中制导精度的要求;具有良好的鲁棒性和泛化能力,并且计算负担较小,具备在弹载计算机上运行的条件.
文献关键词:
导弹制导;大气层内拦截;机动目标;深度强化学习;马尔科夫决策
中图分类号:
作者姓名:
邱潇颀;高长生;荆武兴
作者机构:
哈尔滨工业大学航天工程系,哈尔滨150001
文献出处:
引用格式:
[1]邱潇颀;高长生;荆武兴-.拦截大气层内机动目标的深度强化学习制导律)[J].宇航学报,2022(05):685-695
A类:
交战状态,弹载计算机,大气层内拦截
B类:
制导律,高速机动目标,双延迟深度确定性策略梯度,TD3,状态信息,拦截弹,端到端,无模型,制导策略,攻防,运动学模型,深度强化学习算法,马尔科夫决策过程,计算法,算法训练,动作空间,状态空间,奖励函数,整形,初始化,制导算法,比例导引,脱靶量,中制导,制导精度,泛化能力,计算负担,导弹制导
AB值:
0.278213
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。