典型文献
基于样本效率优化的深度强化学习方法综述
文献摘要:
深度强化学习将深度学习的表示能力和强化学习的决策能力结合,因在复杂控制任务中效果显著而掀起研究热潮.以是否用Bellman方程为基准,将无模型深度强化学习方法分为Q值函数方法和策略梯度方法,并从模型构建方式、优化历程和方法评估等方面对两类方法分别进行了介绍.针对深度强化学习方法中样本效率低的问题进行讨论,根据两类方法的模型特性,说明了 Q值函数方法过高估计问题和策略梯度方法采样无偏性约束分别是两类方法样本效率受限的主要原因.从增强探索效率和提高样本利用率两个角度,根据近年来的研究热点和趋势归纳出各类可行的优化方法,分析相关方法的优势和仍存在的问题,并对比其适用范围和优化效果.最后提出增强样本效率优化方法的通用性、探究两类方法间优化机制的迁移和提高理论完备性作为未来的研究方向.
文献关键词:
深度强化学习;Q值函数方法;策略梯度方法;样本效率;探索与利用
中图分类号:
作者姓名:
张峻伟;吕帅;张正昊;于佳玉;龚晓宇
作者机构:
符号计算与知识工程教育部重点实验室(吉林大学),吉林长春130012;吉林大学计算机科学与技术学院,吉林长春130012;吉林大学软件学院,吉林长春130012
文献出处:
引用格式:
[1]张峻伟;吕帅;张正昊;于佳玉;龚晓宇-.基于样本效率优化的深度强化学习方法综述)[J].软件学报,2022(11):4217-4238
A类:
B类:
样本效率,效率优化,深度强化学习,强化学习方法,方法综述,示能,决策能力,以是,Bellman,无模型,模型深度,值函数,方法和策略,策略梯度方法,构建方式,方法评估,过高估计,问题和策略,无偏性,本利,研究热点和趋势,相关方法,优化效果,通用性,优化机制,完备性,探索与利用
AB值:
0.345183
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。