首站-论文投稿智能助手
典型文献
基于最佳子策略记忆的强化探索策略
文献摘要:
现有强化学习探索策略存在过度探索的问题,导致智能体收敛速度减慢.通过设计一个基于奖励排序的存储表(M表)和ε-greedy改进算法,提出基于最佳子策略记忆的强化探索策略.将奖励值大于零的样本以子策略的形式存入M表,使其基于奖励降序排序,在整个训练过程中,使用与表中相似且奖励值较高的样本以子策略形式替换表中子策略,从而在表中形成一个能有效产生目前最优奖励的动作集合,提高探索的针对性,而不是随机探索.同时,在ε-greedy算法基础上按一定的概率分配,使智能体通过使用M表探索得到MEG探索策略.基于此,智能体在一定概率下将当前状态与M表中子策略匹配,若相似,则将表中与其相似的子策略对应动作反馈给智能体,智能体执行该动作.实验结果表明,该策略能够有效缓解过度探索现象,与DQN系列算法和非DQN系列的A2C算法相比,其在Playing Atari 2600游戏的控制问题中获得了更高的平均奖励值.
文献关键词:
强化学习;过度探索;MEG探索;相似度;最佳子策略
作者姓名:
周瑞朋;秦进
作者机构:
贵州大学 计算机科学与技术学院,贵阳 550025
文献出处:
引用格式:
[1]周瑞朋;秦进-.基于最佳子策略记忆的强化探索策略)[J].计算机工程,2022(02):106-112
A类:
最佳子策略,过度探索,Atari
B类:
略记,探索策略,强化学习,智能体,收敛速度,减慢,greedy,改进算法,奖励值,存入,降序,训练过程,中子,MEG,馈给,DQN,A2C,Playing,控制问题,平均奖
AB值:
0.315767
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。