首站-论文投稿智能助手
典型文献
随机集成策略迁移
文献摘要:
强化学习(RL)在序列决策问题上取得了巨大的成功.随着强化学习的飞速发展,迁移学习(TL)成为了一种重要的可以通过利用和转移外部知识来加速强化学习的技术.策略迁移是一种外部知识来自教师策略的迁移强化学习方法.现有的策略转移方法要么通过测量源任务与目标任务之间的相似性来转移知识,要么通过估计源策略在目标任务上的性能来选择最佳源策略.但是,性能估计有时可能不可靠,这可能会导致负迁移.针对这种问题,提出了一种新的策略转移方法,称为随机集成策略迁移(SEPT).SEPT不是在源策略库中选择一个策略,而是利用源策略集成出教师策略来进行迁移.SEPT把策略迁移转变为选项学习问题以便获得终止概率,用终止概率计算出源策略的概率权重,根据概率权重从策略库中集成出教师策略.然后,通过策略蒸馏的方式从教师策略进行知识迁移.实验结果表明SEPT可以有效地加速强化学习训练,并且在离散和连续空间上都能胜过其他最佳的策略迁移方法.
文献关键词:
迁移学习(TL);强化学习(RL);策略迁移;选项学习;集成;策略蒸馏
作者姓名:
常田;章宗长;俞扬
作者机构:
南京大学 计算机软件新技术国家重点实验室,南京 210023
引用格式:
[1]常田;章宗长;俞扬-.随机集成策略迁移)[J].计算机科学与探索,2022(11):2531-2536
A类:
选项学习,策略蒸馏
B类:
随机集,集成策略,策略迁移,RL,序列决策问题,迁移学习,TL,外部知识,教师策略,强化学习方法,要么,目标任务,能来,不可靠,负迁移,SEPT,移转,学习问题,概率计算,中集,行知,知识迁移,学习训练,连续空间,胜过
AB值:
0.303032
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。