典型文献
基于互信息最大化的意图强化学习方法的研究
文献摘要:
强化学习主要研究智能体如何根据环境作出较好的决策,其核心是学习策略.基于传统策略模型的动作选择主要依赖于状态感知、历史记忆及模型参数等,其智能体行为很难受到控制.然而,当人类智能体完成任务时,通常会根据自身的意愿或动机选择相应的行为.受人类决策机制的启发,为了让强化学习中的行为选择可控,使智能体能够根据意图选择动作,将意图变量加入到策略模型中,提出了一种基于意图控制的强化学习策略学习方法.具体地,通过意图变量与动作的互信息最大化使两者产生高相关性,使得策略能够根据给定意图变量选择相关动作,从而达到对智能体的控制.最终,通过复杂的机器人控制仿真任务Mujoco验证了所提方法能够有效地通过意图变量控制机器人的移动速度和移动角度.
文献关键词:
强化学习;互信息;意图控制;近端策略优化算法
中图分类号:
作者姓名:
赵婷婷;吴帅;杨梦楠;陈亚瑞;王嫄;杨巨成
作者机构:
天津科技大学人工智能学院,天津300457
文献出处:
引用格式:
[1]赵婷婷;吴帅;杨梦楠;陈亚瑞;王嫄;杨巨成-.基于互信息最大化的意图强化学习方法的研究)[J].计算机应用研究,2022(11):3327-3332,3364
A类:
意图控制,Mujoco
B类:
互信息最大化,图强,强化学习方法,智能体,学习策略,状态感知,历史记忆,忆及,难受,人类智能,完成任务,动机选择,决策机制,行为选择,策略学习,过意,变量选择,机器人控制,控制仿真,变量控制,控制机,移动速度,移动角,近端策略优化算法
AB值:
0.372996
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。