首站-论文投稿智能助手
典型文献
基于端到端语音识别的关键词检索技术研究
文献摘要:
近十年来,端到端的语音识别框架发展迅速.区别于传统的基于隐马尔可夫模型的语音识别框架,端到端语音识别拥有众多新特性,而且可以达到相同或更优秀的性能.因此,端到端语音识别吸引了越来越多的关注,已经成为了与传统语音识别并列的第二类主流框架.针对端到端语音识别无法提供关键词检索所需的关键词准确时间起止点与可靠置信度的问题,提出了一种基于端到端语音识别和帧级别对齐的关键词检索框架,并在越南语数据集上进行了实验验证.首先,使用端到端语音识别模型解码待测语句,得到N-最佳假设;然后,从一个与上述识别模型联合训练的音素分类器中获得逐帧音素概率,使用一个基于动态规划的对齐算法为检出的N-最佳假设和逐帧音素概率进行对齐,进而得到N-最佳假设中各个单词的时间起止点和置信度;最后,在N-最佳假设中匹配关键词,并利用时间起止点和置信度合并重复匹配的关键词,得到最终检索结果.在一个越南语自由交谈数据集上的实验表明,提出的关键词检索系统的F1值可以达到77.6%,相对于传统的基于隐马尔可夫模型的关键词检索系统的F1值提升了7.8%,而且可以提供可靠的关键词置信度.
文献关键词:
检索;语音识别;端到端;帧级别对齐
作者姓名:
杨润延;程高峰;刘建
作者机构:
中国科学院声学研究所 北京 100190;中国科学院大学 北京 100049
文献出处:
引用格式:
[1]杨润延;程高峰;刘建-.基于端到端语音识别的关键词检索技术研究)[J].计算机科学,2022(01):53-58
A类:
帧级别对齐
B类:
端到端语音识别,关键词检索,检索技术,识别框架,隐马尔可夫模型,新特性,并列,第二类,起止点,置信度,越南语,语音识别模型,解码,语句,联合训练,音素,分类器,动态规划,单词,交谈,检索系统
AB值:
0.186596
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。