首站-论文投稿智能助手
典型文献
基于深度强化学习与高度速率反馈的再入制导方法
文献摘要:
为解决具有高升阻比的高超声速飞行器在再入制导中高度存在的周期性振荡现象,提出了一种基于深度强化学习和高度速率反馈的再入制导方法.所提方法以传统预测校正制导方法为基础,进行攻角、初始倾侧角幅值和倾侧角符号指令的求取.接着,引入高度速率反馈进行倾侧角幅值补偿量的求取,来抑制高度存在的周期性振荡现象.其中,针对反馈增益的设计问题,采用深度强化学习方法进行解决:首先,构建以所提制导算法为基础的深度强化学习训练环境;然后,采用深度确定性策略梯度算法进行离线训练;最后,提取出训练好的动作网络,与所提制导算法结合进行在线使用,实现反馈增益的实时调整与倾侧角幅值补偿量的实时求取.通过对比仿真和蒙特卡洛仿真可以发现飞行器终端位置、速度和高度误差分别保持在10 km、100 m/s和2 km范围内,验证所提方法的有效性.所提方法可为进一步研究复杂环境中深度强化学习方法直接生成指导指令提供参考.
文献关键词:
高超声速飞行器;预测校正制导;平稳滑翔;深度强化学习;深度确定性策略梯度
作者姓名:
武天才;王宏伦;刘一恒;任斌;余跃
作者机构:
北京航空航天大学自动化科学与电气工程学院,北京 100191;北京航空航天大学高等理工学院,北京 100191;北京航空航天大学飞行器控制一体化技术重点实验室,北京 100191;北京航天自动控制研究所,北京 100854
文献出处:
引用格式:
[1]武天才;王宏伦;刘一恒;任斌;余跃-.基于深度强化学习与高度速率反馈的再入制导方法)[J].无人系统技术,2022(04):1-13
A类:
平稳滑翔
B类:
深度强化学习,再入,制导方法,高升阻比,高超声速飞行器,传统预测,预测校正制导,攻角,倾侧,求取,幅值补偿,反馈增益,设计问题,强化学习方法,提制,制导算法,学习训练,深度确定性策略梯度算法,离线训练,练好,蒙特卡洛仿真,复杂环境,接生
AB值:
0.206632
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。