典型文献
基于异构并行神经网络的语音情感识别
文献摘要:
提取能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别系统的核心.面向语音情感识别构建基于注意力机制的异构并行卷积神经网络模型AHPCL,采用长短时记忆网络提取语音情感的时间序列特征,使用卷积操作提取语音空间谱特征,通过将时间信息和空间信息相结合共同表征语音情感,提高预测结果的准确率.利用注意力机制,根据不同时间序列特征对语音情感的贡献程度分配权重,实现从大量特征信息中选择出更能表征语音情感的时间序列.在CASIA、EMODB、SAVEE等3个语音情感数据库上提取音高、过零率、梅尔频率倒谱系数等低级描述符特征,并计算这些低级描述符特征的高级统计函数共得到219维的特征作为输入进行实验验证.结果表明,AHPCL模型在3个语音情感数据库上分别取得了86.02%、84.03%、64.06%的未加权平均召回率,相比LeNet、DNN-ELM和TSFFCNN基线模型具有更强的鲁棒性和泛化性.
文献关键词:
语音情感识别;谱特征;韵律特征;注意力机制;异构并行分支;循环神经网络
中图分类号:
作者姓名:
张会云;黄鹤鸣
作者机构:
青海师范大学 计算机学院,西宁 810008;藏语智能信息处理及应用国家重点实验室,西宁 810008
文献出处:
引用格式:
[1]张会云;黄鹤鸣-.基于异构并行神经网络的语音情感识别)[J].计算机工程,2022(04):113-118
A类:
AHPCL,EMODB,SAVEE,语音情感数据库,TSFFCNN,异构并行分支
B类:
语音情感识别,泛化性,声学模型,识别系统,注意力机制,并行卷积神经网络,卷积神经网络模型,长短时记忆网络,时间序列特征,卷积操作,空间谱,谱特征,时间信息,空间信息,合共,贡献程度,分配权重,特征信息,CASIA,音高,过零,梅尔频率倒谱系数,低级,描述符,未加,加权平均,召回率,LeNet,DNN,ELM,基线模型,韵律特征,循环神经网络
AB值:
0.251934
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。