典型文献
结合向前状态预测和隐空间约束的强化学习表示算法
文献摘要:
虽然深度强化学习能够解决很多复杂的控制问题,但是需要付出的代价是必须和环境进行大量的交互,这是深度强化学习所面临的一大挑战.造成这一问题的原因之一是仅依靠值函数损失难以让智能体从高维的复杂输入中提取有效特征.导致智能体对所处状态理解不足,从而不能正确给状态分配价值.因此,为了让智能体认识所处环境,提高强化学习样本效率,本文提出一种结合向前状态预测与隐空间约束的表示学习方法(regularized predictive representation learning,RPRL).帮助智能体从高维视觉输入中学习并提取状态特征,以此来提高强化学习样本效率.该方法用前向的状态转移损失作为辅助损失,使智能体学习到的特征包含环境转移的相关动态信息.同时在向前预测的基础上添加正则化项对隐空间的状态表示进行约束,进一步帮助智能体学习到高维度输入的平滑、规则表示.该方法在DeepMind Control(DMControl)环境中与其他的基于模型的方法以及加入了表示学习的无模型方法进行比较,都获得了更好的性能.
文献关键词:
强化学习;表示方法;状态转移;隐空间约束;连续控制;高维度输入
中图分类号:
作者姓名:
项宇;秦进;袁琳琳
作者机构:
贵州大学计算机科学与技术学院,贵阳550025;贵州开放大学信息工程学院,贵阳550023
文献出处:
引用格式:
[1]项宇;秦进;袁琳琳-.结合向前状态预测和隐空间约束的强化学习表示算法)[J].计算机系统应用,2022(11):148-156
A类:
隐空间约束,RPRL,高维度输入,DMControl
B类:
状态预测,深度强化学习,控制问题,要付,付出,值函数,智能体,有效特征,配价,样本效率,表示学习方法,regularized,predictive,representation,learning,取状,状态转移,动态信息,正则化,状态表,行约,DeepMind,基于模型的方法,无模型方法,表示方法,连续控制
AB值:
0.302483
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。