基于拼音约束联合学习的汉语语音识别|梁仁凤;余正涛;高盛祥;黄于欣;郭军军;许树理|昆明理工大学云南省人工智能重点实验室,云南昆明 650500 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

基于拼音约束联合学习的汉语语音识别

文献摘要：

当前的语音识别模型在英语、法语等表音文字中已取得很好的效果.然而,汉语是一种典型的表意文字,汉字与语音没有直接的对应关系,但拼音作为汉字读音的标注符号,与汉字存在相互转换的内在联系.因此,在汉语语音识别中利用拼音作为解码时的约束,可以引入一种更接近语音的归纳偏置.该文基于多任务学习框架,提出一种基于拼音约束联合学习的汉语语音识别方法,以端到端的汉字语音识别为主任务,以拼音语音识别为辅助任务,通过共享编码器,同时利用汉字与拼音识别结果作为监督信号,增强编码器对汉语语音的表达能力.实验结果表明,相比基线模型,该文提出的方法取得了更优的识别效果,词错误率降低了 2.24%.

文献关键词：

端到端;汉语语音识别;联合学习;拼音

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

[3] 无线电电子学、电信技术（TN） / 通信（TN91） / 电声技术和语音信号处理（TN912） / 语音信号处理（TN912.3） / 语音识别与设备（TN912.34）

作者姓名：

梁仁凤;余正涛;高盛祥;黄于欣;郭军军;许树理

作者机构：

昆明理工大学信息工程与自动化学院,云南昆明 650500;昆明理工大学云南省人工智能重点实验室,云南昆明 650500

文献出处：

中文信息学报

引用格式：

[1]梁仁凤;余正涛;高盛祥;黄于欣;郭军军;许树理-.基于拼音约束联合学习的汉语语音识别)[J].中文信息学报,2022(10):167-172

A类：

汉语语音识别

B类：

拼音,联合学习,语音识别模型,法语,表音文字,表意文字,汉字读音,相互转换,解码,偏置,多任务学习,端到端,辅助任务,共享编码器,表达能力,比基,基线模型,错误率

AB值：

0.228701

相似文献

针对唇语识别的上下文相关性蒸馏方法

赵雅;冯尊磊;王慧琼;宋明黎-浙江大学计算机科学与技术学院杭州 310027;浙江大学软件学院杭州 310027;浙江大学宁波研究院宁波 315100;之江实验室杭州 311121

基于Vision Transformer的中文唇语识别

薛峰;洪自坤;李书杰;李雨;谢胤岑-合肥工业大学软件学院合肥230601;合肥工业大学计算机与信息学院合肥230601

基于专利合作网络的研发团队识别及创新产出影响研究

关鹏;王曰芬;傅柱;靳嘉林-巢湖学院经济与法学学院合肥238024;天津师范大学管理学院天津300387;江苏科技大学经济管理学院镇江212003

基于单标签射频识别的唇语识别算法

张瑛琪;彭大卫;李森;孙莹;牛强-中国矿业大学计算机科学与技术学院,江苏徐州221116

基于中文发音视觉特点的唇语识别方法研究

何珊;袁家斌;陆要要-南京航空航天大学计算机科学与技术学院,南京 211106;南京航空航天大学信息化处,南京 211106

基于残差网络和门控卷积网络的语音识别研究

朱学超;张飞;高鹭;任晓颖;郝斌-内蒙古科技大学信息工程学院,内蒙古包头 014000

TCN-Transformer-CTC的端到端语音识别

谢旭康;陈戈;孙俊;陈祺东-江南大学人工智能与计算机学院,江苏无锡214122

多语言语音识别声学模型建模方法最新进展

程高峰;颜永红-中国科学院声学研究所北京 100190;中国科学院大学电子电气与通信工程学院北京 100049

基于端到端语音识别的关键词检索技术研究

杨润延;程高峰;刘建-中国科学院声学研究所北京 100190;中国科学院大学北京 100049

Head Fusion:一种提高语音情绪识别的准确性和鲁棒性的方法

徐鸣珂;张帆-南京工业大学计算机科学与技术学院南京211816;国际商业机器麻省实验室马萨诸塞州利特尔顿01460

面向语音识别系统的对抗样本攻击及防御综述

陈佳豪;白炳松;王冬华;严迪群;王让定-宁波大学信息科学与工程学院,浙江宁波315211

融合多特征的语音情感识别方法

王怡;王黎明;柴玉梅-郑州大学信息工程学院,郑州450001

缩放残差前置GRU模型

吴晓丹;石争;郑玉蒙;武优西;商博雅-河北工业大学智慧医疗实验室,天津300401;河北工业大学人工智能与数据科学学院,天津300401

基于本地蒸馏联邦学习的鲁棒语音识别技术

柏财通;崔翛龙;李爱-武警工程大学研究生大队,西安 710086;武警工程大学反恐指挥信息工程研究团队,西安 710086;武警工程大学乌鲁木齐校区,乌鲁木齐 830049

混合CTC/Attention模型在普通话识别中的应用

许鸿奎;张子枫;卢江坤;周俊杰;胡文烨;姜彤彤-山东建筑大学信息与电气工程学院,山东济南 250101;山东省智能建筑技术重点实验室,山东济南 250101

基于RPA+AI的数字员工在电力行业的应用分析与架构设计

刘海涛;段敬;王艳花;顾玮;姚思蓓-国网山西省电力公司信息通信分公司,山西太原 030000

基于GFCC-SVM-RFE的电力设备声音特征提取方法

王赵国;韦存海;彭雅妮;武明路;李军彬;翟永杰-国家电投集团电站运营技术(北京)有限公司,北京 100000;石家庄良村热电有限公司,河北石家庄 050000;华北电力大学自动化系,河北保定 071003

云点歌系统的Python爬虫设计和实现

罗可-邵阳学院图书馆,邵阳 422000

基于BLSTM-CTC的语音特征的音素识别研究

吴丹丹;夏秀渝-四川大学电子信息学院,成都 610065

语音识别错误对翻译性能的影响分析

田新宇;李军辉-苏州大学计算机科学与技术学院,江苏苏州 215006

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。