典型文献
基于正样本对比与掩蔽重建的自监督语音表示学习
文献摘要:
针对现有基于对比预测的自监督语音表示学习方法在训练时需要构建大量负样本,其学习效果依赖于大批次训练,需要耗费大量计算资源的问题,提出了一种仅使用正样本进行语音对比学习的方法,并将其与掩蔽重建任务相结合得到一种多任务自监督语音表示学习方法,在降低训练复杂度的同时提高语音表示学习的性能.其中,正样本对比学习任务,借鉴图像自监督表示学习中SimSiam方法的思想,采用孪生网络架构对原始语音信号进行两次数据增强,并使用相同的编码器进行处理,将一个分支经过一个前向网络,另一个分支使用梯度停止策略,调整模型参数以最大化2个分支输出的相似度.整个训练过程中不需要构造负样本,可采用小批次进行训练,大幅提高了学习效率.使用LibriSpeech语料库进行自监督表示学习,并在多种下游任务中进行微调测试,对比实验表明,所提方法得到的模型在多个任务中均达到或者超过了现有主流语音表示学习模型的性能.
文献关键词:
语音表示;自监督学习;无监督学习;孪生网络
中图分类号:
作者姓名:
张文林;刘雪鹏;牛铜;陈琦;屈丹
作者机构:
信息工程大学信息系统工程学院,河南 郑州 450001
文献出处:
引用格式:
[1]张文林;刘雪鹏;牛铜;陈琦;屈丹-.基于正样本对比与掩蔽重建的自监督语音表示学习)[J].通信学报,2022(07):163-171
A类:
掩蔽重建,SimSiam
B类:
语音表示,表示学习方法,耗费,计算资源,语音对比,对比学习,多任务,学习任务,孪生网络架构,语音信号,数据增强,编码器,支使,训练过程,学习效率,LibriSpeech,语料库,微调,调测,自监督学习,无监督学习
AB值:
0.239212
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。