典型文献
一种利用CNN-BiGRU和多头注意力的语音分离技术
文献摘要:
针对基线单通道深度聚类语音分离算法分离准确率低的问题,提出了一种基于卷积神经网络级联双向门控循环网络(Convolutional Neural Network Cascades Bidirectional Gated Recurrent Network,CNN-BiGRU)和多头自注意力机制的深度聚类语音分离算法.该算法首先利用CNN-BiGRU挖掘语音的局部空间信息以及捕获语音信号中的时间特征,以实现时间建模;其次通过多头自注意力机制关注对语音分离更重要的全局特征,同时训练过程中使用一种局部线性可控的激活函数,即改进的双曲正切函数(Etanh);最后在分离阶段,利用高斯混合聚类算法(Gaussian Mixture Model,GMM)对混合语音信号进行分离.实验结果表明,相比于基线的深度聚类语音分离模型,所提算法在客观指标上有明显提高,主观听感上清晰度和可懂度较好.
文献关键词:
单通道语音分离;深度聚类;多头自注意力机制;Etanh激活函数
中图分类号:
作者姓名:
王振中;高勇
作者机构:
四川大学,四川 成都 610065
文献出处:
引用格式:
[1]王振中;高勇-.一种利用CNN-BiGRU和多头注意力的语音分离技术)[J].通信技术,2022(05):574-580
A类:
神经网络级联,Etanh
B类:
BiGRU,多头注意力,分离技术,深度聚类,双向门控循环网络,Convolutional,Neural,Network,Cascades,Bidirectional,Gated,Recurrent,多头自注意力机制,局部空间信息,语音信号,时间特征,全局特征,训练过程,局部线性,激活函数,双曲正切函数,高斯混合聚类算法,Gaussian,Mixture,Model,GMM,混合语,客观指标,主观听感,上清,清晰度,单通道语音分离
AB值:
0.283433
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。