典型文献
基于非线性堆叠双向网络的端到端声纹识别
文献摘要:
传统声纹识别方法过程繁琐且识别率低,现有的深度学习方法所使用的神经网络对语音信号没有针对性从而导致识别精度不够.针对上述问题,本文提出一种基于非线性堆叠双向LSTM的端到端声纹识别方法.首先,对原始语音文件提取出Fbank特征用于网络模型的输入.然后,针对语音信号连续且前后关联性强的特点,构建双向长短时记忆网络处理语音数据提取深度特征,为进一步增强网络的非线性表达能力,利用堆叠多层双向LSTM层和多层非线性层实现对语音信号更深层次抽象特征的提取.最后,使用SGD优化器优化训练方式.实验结果表明提出的方法能够充分利用语音序列信号特征,具有较强的时序全面性和非线性表达能力,所构造模型整体性强,比GRU和LSTM等模型具有更好的识别效果.
文献关键词:
声纹识别;端到端;时序特征;长短时记忆;堆叠网络;非线性
中图分类号:
作者姓名:
王芷悦;崔琳
作者机构:
西安工程大学电子信息学院,陕西 西安 710699;西北工业大学航海学院,陕西 西安 710072
文献出处:
引用格式:
[1]王芷悦;崔琳-.基于非线性堆叠双向网络的端到端声纹识别)[J].计算机与现代化,2022(03):13-17
A类:
Fbank,堆叠网络
B类:
双向网络,端到端,声纹识别,识别率,深度学习方法,语音信号,识别精度,征用,前后关联,双向长短时记忆网络,语音数据,数据提取,深度特征,线性表达,表达能力,特征的提取,SGD,优化器,训练方式,音序,信号特征,构造模型,GRU,时序特征
AB值:
0.292017
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。