首站-论文投稿智能助手
典型文献
说话人身份识别深度网络中的聚合模型研究
文献摘要:
说话人身份识别是一项重要的生物识别技术,多种基于深度卷积神经网络(DNN)的模型结构表现出越来越强的特征表达能力,并形成了统一的端到端说话人识别系统,取得了优于传统识别模型的性能.其中聚合模型聚合的话语级特征是影响说话人识别系统准确率的关键因素之一.目前大多数的方法是使用self-attention pooling(SAP)聚合模型.然而SAP聚合模型经常会无法准确地进行帧选择,聚合出的话语级特征不准确、鲁棒性弱.在SAP聚合模型的聚合方式上进行了改进,通过引入平均向量方法,构建了一种改进的聚合模型mSAP.它以一种更细粒化和更稳定的工作方式,将变长的输入序列聚合为话语级特征,可以更有效地捕捉输入序列的长期变化.实验表明,mSAP模型的等错误率(EER)相较于TAP、SAP、NetVLAD聚合模型分别有7.4、1.75和0.24的下降,而DCF值相较于这三种聚合模型分别有0.018、0.137和0.242的下降.改进的mSAP聚合模型能够聚合出鲁棒性更强、更准确的话语级特征,有效地提高了端到端说话人识别模型的性能.
文献关键词:
说话人识别;聚合模型;注意力机制
作者姓名:
邓飞;邓力洪;胡文艺;张葛祥;杨强
作者机构:
成都理工大学计算机与网络安全学院(牛津布鲁克斯学院),成都 610059;成都理工大学人工智能研究中心,成都 610059;成都信息工程大学 控制工程学院,成都610059
文献出处:
引用格式:
[1]邓飞;邓力洪;胡文艺;张葛祥;杨强-.说话人身份识别深度网络中的聚合模型研究)[J].计算机应用研究,2022(03):721-725
A类:
B类:
身份识别,深度网络,聚合模型,生物识别技术,深度卷积神经网络,DNN,模型结构,结构表现,特征表达,表达能力,端到端,说话人识别,识别系统,识别模型,模型聚合,self,attention,pooling,合出,mSAP,细粒,粒化,更稳,工作方式,变长,长期变化,等错误率,EER,TAP,NetVLAD,DCF,注意力机制
AB值:
0.365055
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。