典型文献
TCN-Transformer-CTC的端到端语音识别
文献摘要:
基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面对带噪语音时泛化性能较差.针对以上问题,首先提出使用时序卷积神经网络(TCN)来加强神经网络模型对位置信息的捕捉,其次在上述基础上融合连接时序分类(CTC),提出TCN-Transformer-CTC模型.在不使用任何语言模型的情况下,在中文普通话开源语音数据库AISHELL-1上的实验结果表明,TCN-Transformer-CTC相较于Transformer字错误率相对降低了10.91%,模型最终字错误率降低至5.31%,验证了提出的模型具有一定的先进性.
文献关键词:
端到端语音识别;Transformer;时序卷积神经网络;连接时序分类
中图分类号:
作者姓名:
谢旭康;陈戈;孙俊;陈祺东
作者机构:
江南大学 人工智能与计算机学院,江苏 无锡214122
文献出处:
引用格式:
[1]谢旭康;陈戈;孙俊;陈祺东-.TCN-Transformer-CTC的端到端语音识别)[J].计算机应用研究,2022(03):699-703
A类:
B类:
TCN,Transformer,CTC,端到端语音识别,语音识别系统,多头自注意力机制,位置信息,不敏,对齐方式,泛化性能,出使,时序卷积神经网络,连接时序分类,不使用,语言模型,普通话,开源,源语,语音数据库,AISHELL,错误率
AB值:
0.282591
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。