首站-论文投稿智能助手
典型文献
基于动态优先级的奖励优化模型
文献摘要:
传统的约束马尔可夫决策过程(constrained Markov decision process,CMDP)模型用来解决多目标决策的困难,但该模型缺乏通用性并且只适用于离散环境.为了解决这一问题,提出一种基于CMDP的改进算法CRODP,与强化学习(reinforcement learning,RL)算法结合,将带约束问题建模为拉格朗日公式,其中包含着深度强化学习的策略参数.然后进一步推导出模型参数的更新公式,并将其作为深度强化学习神经网络的损失函数.模型在学习过程中动态调整约束与主要目标之间的权重以确保最终策略符合给定的约束.在若干机器人平台上与基准的深度强化学习算法进行比较,显示本算法得出的最优策略能够更好地满足相应约束.
文献关键词:
强化学习;深度学习;受限马尔可夫模型;动态优先级;机器人环境
作者姓名:
赵沛尧;黄蔚
作者机构:
苏州大学计算机科学与技术学院 江苏苏州 215006;苏州大学江苏省计算机信息处理技术重点实验室 江苏苏州 215006;苏州大学东吴学院 江苏苏州 215006
引用格式:
[1]赵沛尧;黄蔚-.基于动态优先级的奖励优化模型)[J].郑州大学学报(理学版),2022(01):62-68
A类:
CMDP,CRODP,受限马尔可夫模型
B类:
动态优先级,马尔可夫决策过程,constrained,Markov,decision,process,多目标决策,通用性,改进算法,reinforcement,learning,RL,约束问题,拉格朗日,日公,出模,损失函数,学习过程,机器人平台,深度强化学习算法,最优策略,应约,机器人环境
AB值:
0.316625
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。