典型文献
基于深度残差收缩网络多特征融合语音情感识别
文献摘要:
针对语音情感识别任务中说话者的差异性,计算谱特征的一阶差分、二阶差分组成三通道的特征集输入二维网络.结合卷积神经网络、双向长短时记忆网络以及注意力机制建立基线模型,引入深度残差收缩网络分配二维网络中的通道权重,进一步提高语音情感识别的精度.为提升模型的学习效果,采取特征层融合(特征向量并行和特征向量拼接两种方式)和决策层融合(平均得分和最大得分两种方式)等不同信息融合机制.结果表明:(1)特征层融合中的特征向量并行策略是更有效的方式;(2)本文提出模型在CASIA和EMO?DB数据库下分别取得了84.93%和86.83%的未加权平均召回率(Unweighted average recall,UAR),相较于基线模型,引入深度残差收缩网络后的模型在CASIA和EMO?DB数据库上的未加权召回率分别提高5.3%和6.2%.
文献关键词:
深度学习;语音情感识别;深度残差收缩网络;注意力机制;多特征融合
中图分类号:
作者姓名:
李瑞航;吴红兰;孙有朝;吴华聪
作者机构:
南京航空航天大学民航学院,南京211106
文献出处:
引用格式:
[1]李瑞航;吴红兰;孙有朝;吴华聪-.基于深度残差收缩网络多特征融合语音情感识别)[J].数据采集与处理,2022(03):542-554
A类:
B类:
深度残差收缩网络,多特征融合,合语,语音情感识别,说话,谱特征,一阶差分,二阶差分,三通道,征集,集输,双向长短时记忆网络,注意力机制,机制建立,基线模型,特征层融合,特征向量拼接,两种方式,决策层融合,信息融合,融合机制,出模,CASIA,EMO,DB,未加,加权平均,召回率,Unweighted,average,recall,UAR
AB值:
0.298027
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。