典型文献
采用分类经验回放的深度确定性策略梯度方法
文献摘要:
深度确定性策略梯度(Deep deterministic policy gradient,DDPG)方法在连续控制任务中取得了良好的性能表现.为进一步提高深度确定性策略梯度方法中经验回放机制的效率,提出分类经验回放方法,并采用两种方式对经验样本分类:基于时序差分误差样本分类的深度确定性策略梯度方法(DDPG with temporal difference-error classification,TDC-DDPG)和基于立即奖赏样本分类的深度确定性策略梯度方法(DDPG with reward classification,RC-DDPG).在TDC-DDPG和RC-DDPG方法中,分别使用两个经验缓冲池,对产生的经验样本按照重要性程度分类存储,网络模型训练时通过选取较多重要性程度高的样本加快模型学习.在连续控制任务中对分类经验回放方法进行测试,实验结果表明,与随机选取经验样本的深度确定性策略梯度方法相比,TDC-DDPG和RC-DDPG方法具有更好的性能.
文献关键词:
连续控制任务;深度确定性策略梯度;经验回放;分类经验回放
中图分类号:
作者姓名:
时圣苗;刘全
作者机构:
苏州大学计算机科学与技术学院 苏州215006;苏州大学江苏省计算机信息处理技术重点实验室 苏州215006;吉林大学符号计算与知识工程教育部重点实验室 长春130012;软件新技术与产业化协同创新中心 南京210000
文献出处:
引用格式:
[1]时圣苗;刘全-.采用分类经验回放的深度确定性策略梯度方法)[J].自动化学报,2022(07):1816-1823
A类:
分类经验回放,连续控制任务,时序差分误差
B类:
深度确定性策略梯度,策略梯度方法,Deep,deterministic,policy,gradient,DDPG,高深,经验回放机制,两种方式,temporal,difference,error,classification,TDC,奖赏,reward,RC,模型训练,模型学习,取经
AB值:
0.148709
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。