典型文献
混合CTC/Attention模型在普通话识别中的应用
文献摘要:
基于链接时序分类(Connectionist Temporal Classification,CTC)的端到端语音识别模型具有结构简单且能自动对齐的优点,但识别准确率有待进一步提高.本文引入注意力机制(Attention)构成混合CTC/Attention端到端模型,采用多任务学习方式,充分发挥CTC的对齐优势和Attention机制的上下文建模优势.实验结果表明,当选取80维FBank特征和3维pitch特征作为声学特征,选择VGG-双向长短时记忆网络(VGG-Bidirectional long short-time memory,VGG-BiLSTM)作为编码器应用于中文普通话识别时,该模型与基于CTC的端到端模型相比,字错误率下降约6.1%,外接语言模型后,字错误率进一步下降0.3%;与传统基线模型相比,字错误率也有大幅度下降.
文献关键词:
语音识别;链接时序分类;注意力机制;端到端
中图分类号:
作者姓名:
许鸿奎;张子枫;卢江坤;周俊杰;胡文烨;姜彤彤
作者机构:
山东建筑大学信息与电气工程学院,山东 济南 250101;山东省智能建筑技术重点实验室,山东 济南 250101
文献出处:
引用格式:
[1]许鸿奎;张子枫;卢江坤;周俊杰;胡文烨;姜彤彤-.混合CTC/Attention模型在普通话识别中的应用)[J].计算机与现代化,2022(08):1-6
A类:
FBank
B类:
CTC,Attention,普通话,链接时序分类,Connectionist,Temporal,Classification,端到端语音识别,语音识别模型,结构简单,自动对齐,识别准确率,注意力机制,端到端模型,多任务学习,学习方式,上下文,当选,pitch,声学特征,VGG,双向长短时记忆网络,Bidirectional,long,short,memory,BiLSTM,编码器,错误率,外接,语言模型,基线模型
AB值:
0.406617
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。