首站-论文投稿智能助手
典型文献
一种采用机器学习的氦语音识别方法
文献摘要:
为了解决传统氦语音处理技术存在的处理速度慢、计算复杂、操作困难等问题,提出了一种采用机器学习的氦语音识别方法,通过深层网络学习高维信息、提取多种特征,不但解决了过拟合问题,同时也具备了字错率(Word Error Rate,WER)低、收敛速度快的优点.首先自建氦语音孤立词和连续氦语音数据库,对氦语音数据预处理,提取的语音特征主要包括共振峰特征、基音周期特征和FBank(Filter Bank)特征.之后将语音特征输入到由深度卷积神经网络(Deep Convolutional Neural Network,DCNN)和连接时序分类(Connectionist Temporal Classification,CTC)组成的声学模型进行语音到拼音的建模,最后应用Transformer语言模型得到汉字输出.提取共振峰特征、基音周期特征和FBank特征的氦语音孤立词识别模型相比于仅提取FBank特征的识别模型的WER降低了7.91%,连续氦语音识别模型的WER降低了14.95%.氦语音孤立词识别模型的最优WER为1.53%,连续氦语音识别模型的最优WER为36.89%.结果表明,所提方法可有效识别氦语音.
文献关键词:
氦语音;语音识别;机器学习;深度卷积神经网络(DCNN);连接时序分类(CTC)
作者姓名:
李冬梅;李明;郭莉莉;张士兵
作者机构:
南通大学 信息科学技术学院,江苏 南通226019
文献出处:
引用格式:
[1]李冬梅;李明;郭莉莉;张士兵-.一种采用机器学习的氦语音识别方法)[J].电讯技术,2022(09):1215-1221
A类:
氦语音,FBank
B类:
语音处理,技术存在,处理速度,速度慢,深层网络,网络学习,高维,过拟合,Word,Error,Rate,WER,收敛速度,语音数据库,数据预处理,语音特征,共振峰,基音周期,周期特征,Filter,深度卷积神经网络,Deep,Convolutional,Neural,Network,DCNN,连接时序分类,Connectionist,Temporal,Classification,CTC,声学模型,拼音,Transformer,语言模型,汉字,孤立词识别,语音识别模型
AB值:
0.293943
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。