典型文献
基于声学和文本特征的多模态情感识别
文献摘要:
在语音模态中,利用OpenSMILE工具箱可以从语音信号中提取浅层声学特征,通过Transformer Encoder网络从浅层声学特征中挖掘深层特征,并将深浅层特征融合,从而获取更丰富的情感表征.在文本模态中,考虑到停顿因素与情感之间的关联性,将语音和文本对齐以获得说话停顿信息,采用停顿编码的方式将停顿信息添加到转录文本中,再通过DC?BERT模型获取话语级文本特征.将获得的声学与文本特征进行融合,利用基于注意力机制的双向长短时记忆(Bi?directional long short?term memory?attention,BiLSTM?ATT)神经网络进行情感分类.最后,本文对比了3种不同注意力机制融入BiLSTM网络后对情感识别的影响,即局部注意力、自注意力和多头自注意力,发现局部注意力的效果最优.实验表明,本文提出的方法在IEMOCAP数据集上的4类情感分类的加权准确率达到了78.7%,优于基线系统.
文献关键词:
多模态情感识别;深浅特征融合;DC-BERT模型;注意机制;停顿编码
中图分类号:
作者姓名:
顾煜;金赟;马勇;姜芳艽;俞佳佳
作者机构:
江苏师范大学物理与电子工程学院,徐州 221116;江苏师范大学科文学院,徐州 221116;江苏师范大学语言科学与艺术学院,徐州 221116
文献出处:
引用格式:
[1]顾煜;金赟;马勇;姜芳艽;俞佳佳-.基于声学和文本特征的多模态情感识别)[J].数据采集与处理,2022(06):1353-1362
A类:
OpenSMILE,文本对齐,停顿编码,深浅特征融合
B类:
文本特征,多模态情感识别,工具箱,语音信号,声学特征,Transformer,Encoder,深层特征,深浅层特征融合,说话,录文,DC,BERT,注意力机制,双向长短时记忆,directional,long,short,term,memory,attention,BiLSTM,ATT,情感分类,局部注意力,多头自注意力,现局,IEMOCAP,类情感,注意机制
AB值:
0.311414
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。