典型文献
强化学习离线策略评估研究综述
文献摘要:
在强化学习应用中,为避免意外风险,需要在强化学习实际部署前进行离线策略评估(Off-Policy Evaluation,OPE),这在机器人、自动驾驶等领域产生了巨大的应用前景.离线策略评估是从行为策略收集到的轨迹数据中,不需要通过实际的强化学习而估计目标策略的状态价值,通常情况下学习目标是使所估计的目标策略状态价值与目标策略真实执行的状态价值均方误差尽可能小.行为策略与目标策略间的差异性,以及新应用中出现的行为策略奖励稀疏性,不断给离线策略评估带来了挑战.本文系统性地梳理了近二十年离线策略评估的主要方法:纯模型法、重要性采样法、混合模型法和PU学习法(Positive Unlabeled,PU),主要内容包括:(1)描述了离线策略评估的相关理论背景知识;(2)分别阐述了各类方法的机理、方法中模型的细节差异;(3)详细对各类方法及模型进行了机理对比,并通过实验进行了主流离线策略评估模型的程序复现与性能对比.最后展望了离线策略评估的技术挑战与可能发展方向.
文献关键词:
人工智能;强化学习;离线策略评估;重要性采样;PU学习
中图分类号:
作者姓名:
王硕汝;牛温佳;童恩栋;陈彤;李赫;田蕴哲;刘吉强;韩臻;李浥东
作者机构:
北京交通大学智能交通数据安全与隐私保护北京市重点实验室 北京 100044
文献出处:
引用格式:
[1]王硕汝;牛温佳;童恩栋;陈彤;李赫;田蕴哲;刘吉强;韩臻;李浥东-.强化学习离线策略评估研究综述)[J].计算机学报,2022(09):1926-1945
A类:
离线策略评估
B类:
强化学习,评估研究,学习应用,意外风险,Off,Policy,Evaluation,OPE,自动驾驶,从行为,行为策略,轨迹数据,估计目标,目标策略,学习目标,均方误差,稀疏性,二十年,主要方法,模型法,重要性采样,采样法,混合模型,PU,Positive,Unlabeled,背景知识,流离,复现,性能对比,技术挑战
AB值:
0.33917
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。