典型文献
基于卷积循环神经网络的语音逻辑攻击检测
文献摘要:
语音合成和语音转换等技术正逐渐成为合成语音的主流方法,合成语音对社会稳定和国家安全都具有潜在的风险.为进一步提高合成、转换伪造语音检测的准确率,从混合网络模型,特征选择出发,提出了基于CNN-RNN-DNN网络的3种混合网络模型,分别为CNN-LSTM-DNN、CNN-GRU-DNN、CNN-BiLSTM-DNN.模型中卷积神经网络(convolutional neural network,CNN)部分可以进行下采样,循环神经网络(recurrent neural network,RNN)部分解决语音中的时序问题,深度神经网络(deep neural network,DNN)部分则实现分类功能.每种混合网络模型包含20层网络层.对提取的6种声学特征进行实验,其中CNN-LSTM-DNN+MFCC的组合表现最优,等错误率为5.79%,比ASVspoof2019提供的B02基线系统低28.43%.比较了3种混合网络结合6种特征的表现并增加了其与4种单独网络的对照实验,结果表明本文提出的混合网络模型具有性能稳定、准确率高等优点且梅尔频率倒谱系数(mel-frequency cepstral coefficients,MFCCs)特征及混合梅尔倒谱系数线性频率倒谱系数(linear frequency cepstral coefficient,LFCC)特征更适合此模型.
文献关键词:
CNN-RNN-DNN;混合网络模型;混合声学特征;等错误率;ASVspoof2019
中图分类号:
作者姓名:
杨海涛;王华朋;楚宪腾;牛瑾琳;林暖辉;张琨瑶
作者机构:
中国刑事警察学院公安信息技术与情报学院,沈阳110854;广州市刑事科学技术研究所,广州510030
文献出处:
引用格式:
[1]杨海涛;王华朋;楚宪腾;牛瑾琳;林暖辉;张琨瑶-.基于卷积循环神经网络的语音逻辑攻击检测)[J].科学技术与工程,2022(18):7937-7944
A类:
DNN+MFCC,B02,混合声学特征
B类:
卷积循环神经网络,攻击检测,语音合成,语音转换,合成语音,主流方法,全都,伪造语音检测,混合网络模型,特征选择,RNN,GRU,BiLSTM,convolutional,neural,network,下采样,recurrent,深度神经网络,deep,分则,网络层,等错误率,ASVspoof2019,对照实验,有性,梅尔频率倒谱系数,mel,frequency,cepstral,coefficients,MFCCs,梅尔倒谱系数,数线,linear,LFCC
AB值:
0.321801
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。