典型文献
一种基于无限时域无模型的在线Q学习算法
文献摘要:
针对连续线性系统的无限时域最优控制的在线实现问题,在系统动态完全未知的条件下设计了一种在线Q学习算法.基于无限时域最优控制理论中的哈密顿函数与最优代价函数,构造了连续线性系统的Q函数.采用积分强化学习方法设计了一个Actor/Critic逼近器结构,在保证闭环渐近稳定性和最优解收敛的同时,在线估计Q函数的参数.考虑涡轮增压发动机的6阶线性系统模型进行了数字仿真,结果表明,Critic权重与Actor权重均渐近收敛于最优值,实现了无模型的最优控制.
文献关键词:
最优控制;哈密顿函数;Q学习;Actor/Critic逼近器
中图分类号:
作者姓名:
代晓清;赵旭
作者机构:
成都师范学院计算机科学学院,成都 611000;南京信息工程大学计算机与软件学院,南京 210000
文献出处:
引用格式:
[1]代晓清;赵旭-.一种基于无限时域无模型的在线Q学习算法)[J].电光与控制,2022(02):53-57
A类:
连续线性系统
B类:
限时,无模型,全未,下设,最优控制理论,哈密顿函数,代价函数,强化学习方法,方法设计,Actor,Critic,逼近,渐近稳定性,最优解,在线估计,涡轮增压,增压发动机,系统模型,数字仿真,渐近收敛,最优值
AB值:
0.328821
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。