首站-论文投稿智能助手
典型文献
局部可观测环境下未来信息辅助的无模型深度强化学习
文献摘要:
深度强化学习结合了深度学习的特征提取能力和强化学习的决策能力,近年来在众多领域得到了广泛应用,但现有的针对深度强化学习的研究通常假定系统状态完全可观测,而在实际应用中,由于受到感知能力的限制,智能体往往不能完全确定所处状态,即所处环境为局部可观测环境.同时,现有的无模型强化学习算法往往仅依赖以往历史数据来确定决策策略,不能利用可辅助智能体决策的未来有关信息.以局部可观测问题为应用背景,通过利用对比预测编码(Contrastive Prediction Code,CPC)对未来信息的预测能力实现局部可观测环境下未来信息辅助的无模型决策学习,提出的算法既保留了无模型强化学习算法端对端的训练、性能优势,又能充分利用预测的信息来辅助智能体的决策.在不同的局部可观测环境任务上对提出的算法进行了验证和对比,实验结果验证了该算法的有效性.
文献关键词:
深度强化学习;局部可观测环境;对比预测编码;未来信息;表征学习
作者姓名:
常芳芳;陈祺航;刘云龙
作者机构:
厦门大学自动化系,厦门,361102
引用格式:
[1]常芳芳;陈祺航;刘云龙-.局部可观测环境下未来信息辅助的无模型深度强化学习)[J].南京大学学报(自然科学版),2022(05):796-804
A类:
局部可观测环境
B类:
未来信息,无模型,模型深度,深度强化学习,特征提取能力,决策能力,假定,感知能力,智能体,强化学习算法,赖以,历史数据,决策策略,应用背景,对比预测编码,Contrastive,Prediction,Code,CPC,预测能力,现局,模型决策,决策学,法端,端对端,性能优势,表征学习
AB值:
0.304544
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。