典型文献
基于音视频特征融合的情感识别方法研究
文献摘要:
传统的视频情感识别工作主要集中在面部表情、人体的动作行为等,忽略了场景和对象中包含大量的情感线索及不同对象之间的情感关联.因此,提出了一个基于视觉关系推理和跨模态信息学习的音视频特征融合网络模型用于预测视频情感.模型主要包括三部分:对象间的情感关系推理、声学特征提取、跨模态交互融合.首先,采用Mask R-CNN模型提取出包含物体的区域并提取出相应的特征序列,利用图注意力网络对视频帧中的不同区域之间的情感关联进行推理,找到视频帧中的关键区域;然后,利用双向长短时记忆网络提取对数梅尔频谱片段的帧级上下文信息,对视觉信息进行补充;最后,将多头注意力机制应用到跨模态交互融合模块中去学习不同模态信息之间的隐藏关联,并将利用跨模态注意得到的音视频特征利用门控神经网络进行融合.所提出的模型在数据集Video Emotion-8和Ekman上具有较好的精确度.
文献关键词:
情感识别;情感关系推理;跨模态交互;图卷积神经网络;多头注意力机制
中图分类号:
作者姓名:
帖云;程慧杰;靳聪;李小兵;齐林
作者机构:
郑州大学 信息工程学院,郑州 450001;中国传媒大学 信息与通信工程学院,北京 100024;中央音乐学院,北京 100031
文献出处:
引用格式:
[1]帖云;程慧杰;靳聪;李小兵;齐林-.基于音视频特征融合的情感识别方法研究)[J].重庆理工大学学报,2022(01):120-127
A类:
视觉关系推理,情感关系推理
B类:
音视频,情感识别,面部表情,动作行为,同对,模态信息,信息学习,特征融合网络,三部分,声学特征,跨模态交互,交互融合,Mask,特征序列,图注意力网络,对视,视频帧,关键区域,双向长短时记忆网络,梅尔频谱,上下文信息,视觉信息,多头注意力机制,门控神经网络,Video,Emotion,Ekman,图卷积神经网络
AB值:
0.26334
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。