典型文献
基于信任域策略优化的末制导控制量学习算法
文献摘要:
近年来,深度强化学习在解决序列决策问题上取得了很大进展,无模型强化学习算法在与环境不断交互的过程中学习策略,不需要提前对环境建模,使其适用于许多问题.针对以往使用强化学习进行末制导策略学习的训练不稳定问题,使用信任域策略优化算法直接学习末制导控制量,同时设计了一种新颖的奖励函数,可以提高训练稳定性和算法性能.在二维环境下进行了实验,结果表明,该算法具有良好的训练稳定性,并可以达到很好的命中效果.
文献关键词:
末制导控制量;学习算法;深度强化学习;末制导;信任域策略优化
中图分类号:
作者姓名:
刘士荣;王天一;刘扬
作者机构:
哈尔滨工业大学计算学部,哈尔滨150001
文献出处:
引用格式:
[1]刘士荣;王天一;刘扬-.基于信任域策略优化的末制导控制量学习算法)[J].导航定位与授时,2022(06):77-84
A类:
信任域策略优化,末制导控制量
B类:
深度强化学习,序列决策问题,无模型,强化学习算法,断交,学习策略,环境建模,制导策略,策略学习,稳定问题,奖励函数,提高训练,和算,算法性能,命中
AB值:
0.228633
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。