首站-论文投稿智能助手
典型文献
加性频域分解的生成对抗网络语音去混响
文献摘要:
混响语音信号包括由路径延迟效应引起的不同频率分量,这些频率分量在频域中进行相关调制.为了降低混响语音在频谱中的高相关性,提出了一种基于加性频域分解的改进生成对抗网络(generative adversarial net-work,GAN)算法.首先,对混响语音的短时幅度谱进行对数运算,将调制的混响语音幅度谱转换为线性幅度谱,从而对卷积的语音分量进行分解;然后,通过sigmoid非线性函数进行归一化以平衡数据分布,再将解调后的幅度谱应用于深度全卷积网络以训练GAN模型;最后,基于生成模型和判别模型的对抗性学习机制,可以有效学习混响语音和声源语音的分布多样性,指导生成模型更精确地重构增强语音.采用Aishell中文语音数据集进行算法性能验证,分别比较了GAN、FCN和DNN模型有(或无)加性频域分解的去混响性能,并通过语谱图的差异来证明所提方法的有效性.实验结果表明,在4种不同的混响时间参数下,采用加性频域分解的GAN、FCN和DNN模型的PESQ、STOI、LSD评价分数比没有加性频域分解的提高了10%左右.因此,加性频域分解在用于语音去混响时可以有效提高GAN的性能.同时,在非同源测试集下也具有较好的泛化能力.
文献关键词:
语音去混响;对数运算;加性频域分解;生成对抗网络
作者姓名:
全海燕;王涛;郑志清
作者机构:
昆明理工大学 信息工程与自动化学院,云南 昆明 650500
文献出处:
引用格式:
[1]全海燕;王涛;郑志清-.加性频域分解的生成对抗网络语音去混响)[J].工程科学与技术,2022(02):180-187
A类:
加性频域分解,Aishell
B类:
语音去混响,语音信号,延迟效应,不同频率,改进生成对抗网络,generative,adversarial,net,work,GAN,幅度谱,对数运算,音分,sigmoid,非线性函数,数据分布,解调,全卷积网络,生成模型,判别模型,对抗性,学习机制,有效学习,和声,声源,源语,语音数据,算法性能,性能验证,FCN,DNN,语谱图,混响时间,时间参数,PESQ,STOI,LSD,有加,非同,测试集,泛化能力
AB值:
0.269284
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。