典型文献
基于wav2vec预训练的样例关键词识别
文献摘要:
样例关键词识别是将语音关键词片段与语音流中的片段匹配的任务.在低资源或零资源的情况下,样例关键词识别通常采用基于动态时间规正的方法.近年来,神经网络声学词嵌入已成为一种常用的样例关键词识别方法,但神经网络的方法受限于标注数据数量.使用wav2 vec预训练可以减少神经网络对数据量的依赖,提升系统的性能.使用wav2 vec模型提取的预训练特征直接替换梅尔频率倒谱系数特征后,在SwitchBoard语料库中提取的数据集上使双向长短时记忆网络的神经网络声学词嵌入系统的平均准确率提高了11.1%,等精度召回值提高了10.0%.将wav2 vec特征与梅尔频率倒谱系数特征相融合以提取嵌入向量的方法进一步提高了系统的性能,与仅使用wav2 vec的方法相比,融合方法的平均准确率提高了5.3%,等精度召回值提高了2.5%.
文献关键词:
声学词嵌入;孤立词识别;wav2 vec预训练;样例查询;语音片段查询
中图分类号:
作者姓名:
李昭奇;黎塔
作者机构:
中国科学院声学研究所语言声学与内容理解重点实验室 北京 100190;中国科学院大学 北京 100049
文献出处:
引用格式:
[1]李昭奇;黎塔-.基于wav2vec预训练的样例关键词识别)[J].计算机科学,2022(01):59-64
A类:
wav2vec,声学词嵌入,wav2,SwitchBoard,样例查询,语音片段查询
B类:
预训练,关键词识别,语音关键词,低资源,规正,受限于,数据量,提升系统,训练特征,接替,梅尔频率倒谱系数,语料库,双向长短时记忆网络,嵌入系统,平均准确率,等精度,召回,嵌入向量,融合方法,孤立词识别
AB值:
0.209536
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。