典型文献
一种利用SE-Res2Net的合成语音检测系统
文献摘要:
传统的说话人识别(Automatic Speaker Verfication,ASV)系统难以分辨合成语音,构建一个说话人保护系统刻不容缓.针对合成语音侵扰说话人识别系统问题,从特征层面提出了一种基于经验模式分解(Empirical Mode Decomposition,EMD)的梅尔倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)+逆梅尔倒谱系数(Inverse Mel Frequency Cepstral Coefficients,IMFCC)的双通道语音特征作为合成语音检测的前端特征,在后端分类器上串联Res2Net网络和SENet网络组合成SE-Res2Net网络来提升模型的泛化能力.将不同特征与模型的打分结果融合,进一步提高实验性能.在ASVspoof2019数据集上的实验结果表明,该设计的合成语音检测系统能有效检测合成语音,与ASVspoof2019比赛的基线系统相比,融合模型的等错误概率(Equal Error Rate,EER)与串联成本检测函数(tandem Detection Cost Function,t-DCF)分别降低了49%和64%.
文献关键词:
合成语音检测;Res2Net;经验模式分解;SENet;等错误概率;串联成本检测函数
中图分类号:
作者姓名:
梁超;高勇
作者机构:
四川大学电子信息学院,四川成都 610065
文献出处:
引用格式:
[1]梁超;高勇-.一种利用SE-Res2Net的合成语音检测系统)[J].无线电工程,2022(09):1560-1565
A类:
Verfication,IMFCC,等错误概率,串联成本检测函数
B类:
Res2Net,合成语音检测,说话人识别,Automatic,Speaker,人保,保护系统,刻不容缓,侵扰,识别系统,系统问题,基于经验,经验模式分解,Empirical,Mode,Decomposition,EMD,梅尔倒谱系数,Mel,Frequency,Cepstral,Coefficients,Inverse,双通道,语音特征,后端,分类器,SENet,组合成,泛化能力,打分,高实,实验性,ASVspoof2019,有效检测,融合模型,Equal,Error,Rate,EER,tandem,Detection,Cost,Function,DCF
AB值:
0.34421
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。