基于端到端语音识别的关键词检索技术研究|杨润延;程高峰;刘建|中国科学院大学北京 100049 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

基于端到端语音识别的关键词检索技术研究

文献摘要：

近十年来,端到端的语音识别框架发展迅速.区别于传统的基于隐马尔可夫模型的语音识别框架,端到端语音识别拥有众多新特性,而且可以达到相同或更优秀的性能.因此,端到端语音识别吸引了越来越多的关注,已经成为了与传统语音识别并列的第二类主流框架.针对端到端语音识别无法提供关键词检索所需的关键词准确时间起止点与可靠置信度的问题,提出了一种基于端到端语音识别和帧级别对齐的关键词检索框架,并在越南语数据集上进行了实验验证.首先,使用端到端语音识别模型解码待测语句,得到N-最佳假设;然后,从一个与上述识别模型联合训练的音素分类器中获得逐帧音素概率,使用一个基于动态规划的对齐算法为检出的N-最佳假设和逐帧音素概率进行对齐,进而得到N-最佳假设中各个单词的时间起止点和置信度;最后,在N-最佳假设中匹配关键词,并利用时间起止点和置信度合并重复匹配的关键词,得到最终检索结果.在一个越南语自由交谈数据集上的实验表明,提出的关键词检索系统的F1值可以达到77.6％,相对于传统的基于隐马尔可夫模型的关键词检索系统的F1值提升了7.8％,而且可以提供可靠的关键词置信度.

文献关键词：

检索;语音识别;端到端;帧级别对齐

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 无线电电子学、电信技术（TN） / 通信（TN91） / 电声技术和语音信号处理（TN912） / 语音信号处理（TN912.3） / 语音识别与设备（TN912.34）

[3] 医药、卫生（R） / 基础医学（R3） / 医用一般科学（R31） / 生物医学工程（R318）

作者姓名：

杨润延;程高峰;刘建

作者机构：

中国科学院声学研究所北京 100190;中国科学院大学北京 100049

文献出处：

计算机科学

引用格式：

[1]杨润延;程高峰;刘建-.基于端到端语音识别的关键词检索技术研究)[J].计算机科学,2022(01):53-58

A类：

帧级别对齐

B类：

端到端语音识别,关键词检索,检索技术,识别框架,隐马尔可夫模型,新特性,并列,第二类,起止点,置信度,越南语,语音识别模型,解码,语句,联合训练,音素,分类器,动态规划,单词,交谈,检索系统

AB值：

0.186596

相似文献

针对唇语识别的上下文相关性蒸馏方法

赵雅;冯尊磊;王慧琼;宋明黎-浙江大学计算机科学与技术学院杭州 310027;浙江大学软件学院杭州 310027;浙江大学宁波研究院宁波 315100;之江实验室杭州 311121

基于残差的门控循环单元

张忠豪;董方敏;胡枫;吴义熔;孙水发-三峡大学计算机与信息学院宜昌443002;智慧医疗宜昌市重点实验室宜昌443002

深度神经网络FPGA设计进展、实现与展望

焦李成;孙其功;杨育婷;冯雨歆;李秀芳-西安电子科技大学智能感知与图像理解教育部重点实验室西安 710071

深度生成模型综述

胡铭菲;左信;刘建伟-中国石油大学(北京)自动化系北京102249

EasiLTOM:一种基于局部动态阈值的信号活动区间识别方法

周钧锴;王念;崔莉-中国科学院计算技术研究所北京100190;中国科学院大学北京 100190

基于单标签射频识别的唇语识别算法

张瑛琪;彭大卫;李森;孙莹;牛强-中国矿业大学计算机科学与技术学院,江苏徐州221116

基于残差网络和门控卷积网络的语音识别研究

朱学超;张飞;高鹭;任晓颖;郝斌-内蒙古科技大学信息工程学院,内蒙古包头 014000

TCN-Transformer-CTC的端到端语音识别

谢旭康;陈戈;孙俊;陈祺东-江南大学人工智能与计算机学院,江苏无锡214122

面向语音识别系统的对抗样本攻击及防御综述

陈佳豪;白炳松;王冬华;严迪群;王让定-宁波大学信息科学与工程学院,浙江宁波315211

融合多特征的语音情感识别方法

王怡;王黎明;柴玉梅-郑州大学信息工程学院,郑州450001

缩放残差前置GRU模型

吴晓丹;石争;郑玉蒙;武优西;商博雅-河北工业大学智慧医疗实验室,天津300401;河北工业大学人工智能与数据科学学院,天津300401

基于本地蒸馏联邦学习的鲁棒语音识别技术

柏财通;崔翛龙;李爱-武警工程大学研究生大队,西安 710086;武警工程大学反恐指挥信息工程研究团队,西安 710086;武警工程大学乌鲁木齐校区,乌鲁木齐 830049

混合CTC/Attention模型在普通话识别中的应用

许鸿奎;张子枫;卢江坤;周俊杰;胡文烨;姜彤彤-山东建筑大学信息与电气工程学院,山东济南 250101;山东省智能建筑技术重点实验室,山东济南 250101

多任务学习在中国方言分类中的应用研究

万苗;任杰;马苗;曹瑞-陕西师范大学计算机科学学院,陕西西安 710119;西北大学信息科学与技术学院,陕西西安 710127

语音识别研究综述

马晗;唐柔冰;张义;张巧灵-浙江理工大学信息学院, 杭州 310018

深度学习在现代医疗领域中的应用

姚琼;王觅也;师庆科;张梦娇;邓悟-四川大学华西医院信息中心,成都610041;四川大学华西医院医疗信息化技术教育部工程研究中心,成都610041

基于任务型对话系统的电子病历结构化录入系统设计

程路易;王志军-东华大学计算机科学与技术学院,上海201620

考虑换道意图的LSTM-AdaBoost车辆轨迹预测模型

孟宪伟;唐进君;王喆-中南大学交通运输工程学院,长沙 410075

基于多模态注意力机制的跨模态哈希网络

吴吉祥;鲁芹;李伟霄-齐鲁工业大学(山东省科学院)计算机科学与技术学院,济南 250000;中移动信息技术有限公司内审部,北京 100000

地铁运营岗位应急处置培训的语音识别研究

周杨;钱雪军-同济大学电子与信息工程学院,上海201804

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。