典型文献
Head Fusion:一种提高语音情绪识别的准确性和鲁棒性的方法
文献摘要:
语音情绪识别指使用机器从说话人的语音中识别说话人的情绪.语音情绪识别是人机交互的重要环节,但是目前的研究中仍然存在很多问题,例如,缺乏高质量的数据、模型准确性不足、在嘈杂的环境下进行的研究很少等.文中提出了一种基于多头注意力机制的Head Fusion方法,提高了语音情绪识别在相应数据集上的准确性.文中还实现了一个基于注意力的卷积神经网络模型,并在IEMOCAP数据集上进行了实验.语音情绪识别在该数据集上的准确度提高到76.18%(Weighted Ac-curacy,WA)和76.36%(Unweighted Accuracy,UA).根据调研,该结果与该数据集上的最新结果(76.4% 的WA和70.1% 的UA)相比,在保持WA的同时提高了约6% 的UA.此外,还使用了混入50种常见噪声的语音数据进行了实验,通过改变噪声强度、对噪声进行时域平移、混合不同的噪声类型,以识别它们对语音情绪识别(Speech Emotion Recognition)准确度的不同影响并验证模型的鲁棒性.文中还将帮助研究人员和工程师通过使用带有适当类型噪声的语音数据来增加其训练数据,从而缓解语音情绪识别研究中高质量数据不足的问题.
文献关键词:
语音情绪识别;注意力机制;卷积神经网络;噪声语音;语音识别
中图分类号:
作者姓名:
徐鸣珂;张帆
作者机构:
南京工业大学计算机科学与技术学院 南京211816;国际商业机器麻省实验室 马萨诸塞州利特尔顿01460
文献出处:
引用格式:
[1]徐鸣珂;张帆-.Head Fusion:一种提高语音情绪识别的准确性和鲁棒性的方法)[J].计算机科学,2022(07):132-141
A类:
B类:
Head,Fusion,语音情绪识别,指使,说话,别说,人机交互,嘈杂,多头注意力机制,卷积神经网络模型,IEMOCAP,Weighted,WA,Unweighted,Accuracy,UA,混入,语音数据,噪声强度,平移,Speech,Emotion,Recognition,验证模型,助研,训练数据,解语,质量数据,噪声语音,语音识别
AB值:
0.317943
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。