首站-论文投稿智能助手
典型文献
基于受限MDP的无模型安全强化学习方法
文献摘要:
很多强化学习方法较少地考虑决策的安全性,但研究领域和工业应用领域都要求的智能体所做决策是安全的.解决智能体决策安全问题的传统方法主要有改变目标函数、改变智能体的探索过程等,然而这些方法忽略了智能体遭受的损害和成本,因此不能有效地保障决策的安全性.在受限马尔可夫决策过程的基础上,通过对动作空间添加安全约束,设计了安全Sarsa(λ)方法和安全Sarsa方法.在求解过程中,不仅要求智能体得到最大的状态-动作值,还要求其满足安全约束的限制,从而获得安全的最优策略.由于传统的强化学习求解方法不再适用于求解带约束的安全Sarsa(λ)模型和安全Sarsa模型,为在满足约束条件下得到全局最优状态-动作值函数,提出了安全强化学习的求解模型.求解模型基于线性化多维约束,采用拉格朗日乘数法,在保证状态-动作值函数和约束函数具有可微性的前提下,将安全强化学习模型转化为凸模型,避免了在求解过程中陷入局部最优解的问题,提高了算法的求解效率和精确度.同时,给出了算法的可行性证明.最后,实验验证了算法的有效性.
文献关键词:
受限马尔可夫决策过程;安全强化学习;多维约束;Sarsa(λ)算法;Sarsa算法
作者姓名:
朱斐;葛洋洋;凌兴宏;刘全
作者机构:
苏州大学 计算机科学与技术学院, 江苏 苏州 215006;软件新技术与产业化协同创新中心, 江苏 南京 210093;江苏省计算机信息处理技术重点实验室(苏州大学), 江苏 苏州 215006
文献出处:
引用格式:
[1]朱斐;葛洋洋;凌兴宏;刘全-.基于受限MDP的无模型安全强化学习方法)[J].软件学报,2022(08):3086-3102
A类:
受限马尔可夫决策过程
B类:
MDP,无模型,安全强化学习,强化学习方法,工业应用,智能体,保障决策,动作空间,安全约束,Sarsa,最优策略,求解方法,下得,全局最优,动作值函数,解模,线性化,多维约束,拉格朗日乘数法,和约,约束函数,数具,可微性,凸模型,局部最优解,求解效率
AB值:
0.265269
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。