典型文献
基于全局注意力机制的CNN-LSTM说话人识别研究
文献摘要:
目前基于深度学习的说话人识别算法中,大多数算法只考虑了语音的空间域特征或时域特征,且模型训练难度大,准确率较低.针对说话人识别过程中存在的连续性强、空域、时域和频域特征提取不充分的难点,提出一种基于注意力机制(Attention mechanism)的混合卷积神经网络(Convolutional Neural Networks,CNN)和长短期记忆网络(Long Short-Term Memory,LSTM)的说话人识别方法.该方法首先提取数据集Mel频率倒谱系数(Mel Frequency Cepstral Cofficient,MFCC)和 Gammatone 滤波器倒谱系数(Gammatone Frequency Cepstral Coefficients,GFCC);其次采用 CNN 从提取到的声学特征参数中提取高层次的属性特征,将学习到的深度特征参数经转换后送入LSTM中,以充分提取语音信号的时序信息;再次,使用注意力机制赋予LSTM隐藏层不同的权重,以增加关键帧语音对识别结果的贡献度;最后采用Softmax层实现说话人识别的分类.实验结果表明,所提的算法在中文数据集的准确率比CNN和CNN+LSTM模型分别提升10.38%和9.65%;在Librispeech数据集的准确率分别提高5.56%和5.72%.因此,本方法能充分考虑语音时频信息和关键帧的贡献度,进一步提高说话人识别的准确度.
文献关键词:
声纹识别;卷积神经网络(CNN);长短期记忆网络(LSTM);注意力机制
中图分类号:
作者姓名:
楚宪腾;杨海涛;闫道申;许铭洋;王华朋
作者机构:
中国刑事警察学院公安信息与情报学院,辽宁 沈阳 110854
文献出处:
引用格式:
[1]楚宪腾;杨海涛;闫道申;许铭洋;王华朋-.基于全局注意力机制的CNN-LSTM说话人识别研究)[J].电声技术,2022(02):38-45
A类:
Cofficient,Librispeech
B类:
全局注意力机制,说话人识别,识别算法,数算,空间域,时域特征,模型训练,识别过程,空域,频域特征,Attention,mechanism,混合卷积神经网络,Convolutional,Neural,Networks,长短期记忆网络,Long,Short,Term,Memory,提取数据,Mel,倒谱系数,Frequency,Cepstral,MFCC,Gammatone,滤波器,Coefficients,GFCC,取到,声学特征,属性特征,深度特征,后送,送入,分提,语音信号,时序信息,关键帧,贡献度,Softmax,中文数据集,CNN+LSTM,时频信息,声纹识别
AB值:
0.393272
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。