安全强化学习算法及其在CPS智能控制中的应用|赵恒军;李权忠;曾霞;刘志明|西南大学软件研究与创新中心, 重庆 400715 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

典型文献

安全强化学习算法及其在CPS智能控制中的应用

文献摘要：

信息物理系统(cyber-physical system,CPS)的安全控制器设计是一个热门研究方向,现有基于形式化方法的安全控制器设计存在过度依赖模型、可扩展性差等问题.基于深度强化学习的智能控制可处理高维非线性复杂系统和不确定性系统,正成为非常有前景的CPS控制技术,但是缺乏对安全性的保障.针对强化学习控制在安全性方面的不足,围绕一个工业油泵控制系统典型案例,开展安全强化学习算法和智能控制应用研究.首先,形式化了工业油泵控制的安全强化学习问题,搭建了工业油泵仿真环境;随后,通过设计输出层结构和激活函数,构造了神经网络形式的油泵控制器,使得油泵开关时间的线性不等式约束得到满足;最后,为了更好地权衡安全性和最优性控制目标,基于增广拉格朗日乘子法设计实现了新型安全强化学习算法.在工业油泵案例上的对比实验表明,该算法生成的控制器在安全性和最优性上均超越了现有同类算法.在进一步评估中,所生成神经网络控制器以90％的概率通过了严格形式化验证;同时,与理论最优控制器相比实现了低至2％的最优目标值损失.所提方法有望推广至更多应用场景,实例研究的方案有望为安全智能控制和形式化验证领域其他学者提供借鉴.

文献关键词：

强化学习;智能控制;信息物理系统;安全验证;工业油泵

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机软件（TP31） / 程序设计、软件工程（TP311）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

[3] 自动化技术、计算机技术（TP） / 自动化技术及设备（TP2） / 自动化系统（TP27） / 自动控制、自动控制系统（TP273）

作者姓名：

赵恒军;李权忠;曾霞;刘志明

作者机构：

西南大学计算机与信息科学学院软件学院, 重庆 400715;西南大学软件研究与创新中心, 重庆 400715;西北工业大学智能嵌入式软件研究中心, 陕西西安 710129

文献出处：

软件学报

引用格式：

[1]赵恒军;李权忠;曾霞;刘志明-.安全强化学习算法及其在CPS智能控制中的应用)[J].软件学报,2022(07):2538-2561

A类：

工业油泵

B类：

安全强化学习,强化学习算法,CPS,智能控制,信息物理系统,cyber,physical,system,安全控制,控制器设计,形式化方法,依赖模型,可扩展性,深度强化学习,高维,非线性复杂,复杂系统,不确定性系统,学习控制,泵控,控制应用,学习问题,仿真环境,出层,激活函数,开关时间,线性不等式约束,地权,最优性,控制目标,增广拉格朗日乘子法,设计实现,所生,神经网络控制器,形式化验证,最优控制,目标值,多应用场景,实例研究,全智能,安全验证

AB值：

0.291995

相似文献

区块链赋能物联网中联合资源分配与控制的智能计算迁移研究

陈思光;王倩;张海君;王堃-南京邮电大学江苏省宽带无线通信和物联网重点实验室南京 210003;北京科技大学通信工程系北京 100083;加州大学洛杉矶分校电子与计算机工程系洛杉矶 CA90095 美国

基于深度强化学习的网约车动态路径规划

郑渤龙;明岭峰;胡琦;方一向;郑凯;李国徽-华中科技大学计算机科学与技术学院武汉 430074;香港中文大学(深圳)数据科学学院广东深圳 518172;电子科技大学计算机科学与工程学院成都 610054

基于强化学习的稀疏群智感知参与者招募策略

涂淳钰;於志勇;韩磊;朱伟平;黄昉菀;郭文忠;王乐业-福州大学数学与计算机科学学院福州 350108;福建省网络计算与智能信息处理重点实验室(福州大学) 福州 350108;西北工业大学计算机学院西安 710072;高可信软件技术教育部重点实验室(北京大学) 北京 100871;北京大学计算机学院北京 100871

基于自注意力机制和策略映射重组的多智能体强化学习算法

李静晨;史豪斌;黄国胜-西北工业大学计算机学院西安 710072;"高雄中山大学"电机系高雄000800

基于奖励滤波信用分配的多智能体深度强化学习算法