Head Fusion:一种提高语音情绪识别的准确性和鲁棒性的方法|徐鸣珂;张帆|国际商业机器麻省实验室马萨诸塞州利特尔顿01460 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

典型文献

Head Fusion:一种提高语音情绪识别的准确性和鲁棒性的方法

文献摘要：

语音情绪识别指使用机器从说话人的语音中识别说话人的情绪.语音情绪识别是人机交互的重要环节,但是目前的研究中仍然存在很多问题,例如,缺乏高质量的数据、模型准确性不足、在嘈杂的环境下进行的研究很少等.文中提出了一种基于多头注意力机制的Head Fusion方法,提高了语音情绪识别在相应数据集上的准确性.文中还实现了一个基于注意力的卷积神经网络模型,并在IEMOCAP数据集上进行了实验.语音情绪识别在该数据集上的准确度提高到76.18％(Weighted Ac-curacy,WA)和76.36％(Unweighted Accuracy,UA).根据调研,该结果与该数据集上的最新结果(76.4％的WA和70.1％的UA)相比,在保持WA的同时提高了约6％的UA.此外,还使用了混入50种常见噪声的语音数据进行了实验,通过改变噪声强度、对噪声进行时域平移、混合不同的噪声类型,以识别它们对语音情绪识别(Speech Emotion Recognition)准确度的不同影响并验证模型的鲁棒性.文中还将帮助研究人员和工程师通过使用带有适当类型噪声的语音数据来增加其训练数据,从而缓解语音情绪识别研究中高质量数据不足的问题.

文献关键词：

语音情绪识别;注意力机制;卷积神经网络;噪声语音;语音识别

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 模式识别与装置（TP391.4）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[3] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

作者姓名：

徐鸣珂;张帆

作者机构：

南京工业大学计算机科学与技术学院南京211816;国际商业机器麻省实验室马萨诸塞州利特尔顿01460

文献出处：

计算机科学

引用格式：

[1]徐鸣珂;张帆-.Head Fusion:一种提高语音情绪识别的准确性和鲁棒性的方法)[J].计算机科学,2022(07):132-141

A类：

B类：

Head,Fusion,语音情绪识别,指使,说话,别说,人机交互,嘈杂,多头注意力机制,卷积神经网络模型,IEMOCAP,Weighted,WA,Unweighted,Accuracy,UA,混入,语音数据,噪声强度,平移,Speech,Emotion,Recognition,验证模型,助研,训练数据,解语,质量数据,噪声语音,语音识别

AB值：

0.317943

相似文献

结合Transformer与对称型编解码器的噪声虹膜图像分割方法

顾正杰;王财勇;田启川;张琪-北京建筑大学电气与信息工程学院北京 100044;北京建筑大学建筑大数据智能处理方法研究北京市重点实验室北京 100044;中国人民公安大学信息网络安全学院北京 100038

基于残差的门控循环单元

张忠豪;董方敏;胡枫;吴义熔;孙水发-三峡大学计算机与信息学院宜昌443002;智慧医疗宜昌市重点实验室宜昌443002

面向三维目标的矢量型卷积网络

邱起璐;赵杰煜;陈瑜-宁波大学信息科学与工程学院宁波315211;浙江省移动网应用技术重点实验室宁波315211

脑电信号情绪识别研究综述

王忠民;赵玉鹏;郑镕林;贺炎;张嘉雯;刘洋-西安邮电大学计算机学院,西安 710121;陕西省网络数据分析与智能处理重点实验室,西安 710121;西安市大数据与智能计算重点实验室,西安 710121

结合多头注意力机制的旅游问句分类研究