首站-论文投稿智能助手
典型文献
降低方差的深度确定性策略梯度算法
文献摘要:
针对高方差现象导致训练过程不稳定、算法性能下降的问题,提出一种降低方差的深度确定性策略梯度算法(reduction variance deep deterministic policy gradient,RV-DDPG).通过延迟更新目标策略的方法,减少误差出现次数,降低误差的累计;通过平滑目标策略的方法,减小单步误差,稳定方差.将RV-DDPG算法、传统深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)和目前广泛应用的异步优势行动者评论家算法(asynchronous advantage actor-critic,A3C)应用于Pendulum、Mountain Car Continues和Half Cheetah问题.实验结果表明:RV-DDPG具有更好的收敛性和稳定性,证明了该算法降低方差的有效性.
文献关键词:
强化学习;DDPG;平滑目标策略;策略延迟更新;降低方差
作者姓名:
赵国庆;徐君明;刘爱东
作者机构:
海军航空大学岸防兵学院,山东 烟台 246001
文献出处:
引用格式:
[1]赵国庆;徐君明;刘爱东-.降低方差的深度确定性策略梯度算法)[J].兵工自动化,2022(06):41-46
A类:
降低方差,平滑目标策略,Cheetah,策略延迟更新
B类:
深度确定性策略梯度算法,训练过程,算法性能,性能下降,reduction,variance,deep,deterministic,policy,gradient,RV,DDPG,减少误差,降低误差,过平滑,单步,异步,行动者,评论家,asynchronous,advantage,actor,critic,A3C,Pendulum,Mountain,Car,Continues,Half,收敛性,强化学习
AB值:
0.302932
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。