典型文献
DVUGAN:基于STDCT的DDSP集成变分U-Net的语音增强
文献摘要:
本文提出基于生成对抗网络设计的DVUGAN模型,用于语音增强任务.该模型工作在变换域上,输入采用STDCT特征,该特征能隐式表达相位,可在实值网络中学习,避免了复频域复杂网络或处理,利用相位的同时降低模型复杂度;生成器采用变分U-Net编解码器,集成DDSP组件利用强归纳偏置显著提升自动编码器性能,变分概率瓶颈改善脉冲噪声源的抑制,增加对未知数据分布的鲁棒性;引入DDSP中的Multi-Scale Spectral Loss,利用振荡器感知偏差,指导生成器优化感知性能;将SI-SNR Loss优化判别器性能,以平衡生成对抗网络结构,促使模型稳定训练.该模型在DNS开发数据集和Voice Bank+DEMAND数据集下评估优于基线模型和最近部分研究,证明了本文提出的DVUGAN在变换域语音增强领域的优越性.
文献关键词:
语音增强;STDCT;DDSP;生成对抗网络
中图分类号:
作者姓名:
徐峰;李平
作者机构:
华侨大学信息科学与工程学院,福建厦门361021
文献出处:
引用格式:
[1]徐峰;李平-.DVUGAN:基于STDCT的DDSP集成变分U-Net的语音增强)[J].信号处理,2022(03):582-589
A类:
DVUGAN,STDCT,DDSP,Bank+DEMAND
B类:
Net,语音增强,生成对抗网络,网络设计,变换域,隐式,频域,复杂网络,模型复杂度,生成器,编解码器,偏置,自动编码器,脉冲噪声,噪声源,未知数,数据分布,Multi,Scale,Spectral,Loss,振荡器,感知偏差,化感,感知性,SI,SNR,优化判别,判别器,稳定训练,DNS,Voice,基线模型
AB值:
0.335754
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。