典型文献
安全强化学习算法及其在CPS智能控制中的应用
文献摘要:
信息物理系统(cyber-physical system,CPS)的安全控制器设计是一个热门研究方向,现有基于形式化方法的安全控制器设计存在过度依赖模型、可扩展性差等问题.基于深度强化学习的智能控制可处理高维非线性复杂系统和不确定性系统,正成为非常有前景的CPS控制技术,但是缺乏对安全性的保障.针对强化学习控制在安全性方面的不足,围绕一个工业油泵控制系统典型案例,开展安全强化学习算法和智能控制应用研究.首先,形式化了工业油泵控制的安全强化学习问题,搭建了工业油泵仿真环境;随后,通过设计输出层结构和激活函数,构造了神经网络形式的油泵控制器,使得油泵开关时间的线性不等式约束得到满足;最后,为了更好地权衡安全性和最优性控制目标,基于增广拉格朗日乘子法设计实现了新型安全强化学习算法.在工业油泵案例上的对比实验表明,该算法生成的控制器在安全性和最优性上均超越了现有同类算法.在进一步评估中,所生成神经网络控制器以90%的概率通过了严格形式化验证;同时,与理论最优控制器相比实现了低至2%的最优目标值损失.所提方法有望推广至更多应用场景,实例研究的方案有望为安全智能控制和形式化验证领域其他学者提供借鉴.
文献关键词:
强化学习;智能控制;信息物理系统;安全验证;工业油泵
中图分类号:
作者姓名:
赵恒军;李权忠;曾霞;刘志明
作者机构:
西南大学 计算机与信息科学学院 软件学院, 重庆 400715;西南大学 软件研究与创新中心, 重庆 400715;西北工业大学 智能嵌入式软件研究中心, 陕西 西安 710129
文献出处:
引用格式:
[1]赵恒军;李权忠;曾霞;刘志明-.安全强化学习算法及其在CPS智能控制中的应用)[J].软件学报,2022(07):2538-2561
A类:
工业油泵
B类:
安全强化学习,强化学习算法,CPS,智能控制,信息物理系统,cyber,physical,system,安全控制,控制器设计,形式化方法,依赖模型,可扩展性,深度强化学习,高维,非线性复杂,复杂系统,不确定性系统,学习控制,泵控,控制应用,学习问题,仿真环境,出层,激活函数,开关时间,线性不等式约束,地权,最优性,控制目标,增广拉格朗日乘子法,设计实现,所生,神经网络控制器,形式化验证,最优控制,目标值,多应用场景,实例研究,全智能,安全验证
AB值:
0.291995
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。