典型文献
稀疏奖励场景下基于个体落差情绪的多智能体协作算法
文献摘要:
针对在多智能体环境中强化学习面临的稀疏奖励问题,借鉴情绪在人类学习和决策中的作用,文中提出基于个体落差情绪的多智能体协作算法.对近似联合动作值函数进行端到端优化以训练个体策略,将每个智能体的个体动作值函数作为对事件的评估.预测评价与实际情况的差距产生落差情绪,以该落差情绪模型作为内在动机机制,为每个智能体产生一个内在情绪奖励,作为外在奖励的有效补充,以此缓解外在奖励稀疏的问题.同时内在情绪奖励与具体任务无关,因此具有一定的通用性.在不同稀疏程度的多智能体追捕场景中验证文中算法的有效性和鲁棒性.
文献关键词:
稀疏奖励;多智能体协作;强化学习;个体落差情绪;内在情绪奖励
中图分类号:
作者姓名:
王浩;汪京;方宝富
作者机构:
合肥工业大学 计算机与信息学院 合肥230601;合肥工业大学 情感计算与先进智能机器安徽省重点实验室 合肥230601
文献出处:
引用格式:
[1]王浩;汪京;方宝富-.稀疏奖励场景下基于个体落差情绪的多智能体协作算法)[J].模式识别与人工智能,2022(05):451-460
A类:
个体落差情绪,内在情绪奖励
B类:
稀疏奖励,多智能体协作,强化学习,人类学,动作值函数,端到端,预测评价,内在动机,动机机制,具体任务,通用性,追捕
AB值:
0.188669
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。