典型文献
基于时频注意力机制与U-Net的骨导语音鲁棒增强方法
文献摘要:
近年来,基于神经网络的方法大量应用于骨导语音增强中.然而,由于骨导数据集样本较少,骨导语音高频部分缺失,不同说话人高频部分失真程度不同,神经网络难以有效学习骨导语音的频谱特征.因此,现有骨导语音增强模型对于未知说话人骨导语音数据集增强效果不佳、鲁棒性不强.为充分利用骨导语音的时频信息,引导模型关注骨导语音的低频部分特征,提出一种基于时频注意力机制和U-Net的骨导语音增强方法.该方法将时频注意力机制引入U-Net结构中,首先根据骨导语音时间、频率方向特征信息的重要程度自动为其分配权重,而后以加权后的骨导语音谱作为输入,对应的气导语音谱作为目标进入U-Net结构训练,最后利用训练完成的增强模型重构骨导语音全频带的语音.仿真实验与可视化分析结果表明,对比基线U-Net结构与其他注意力机制,该方法对于未知说话人骨导语音数据集能够取得更高的PESQ和STOI客观评价指标,增强语音更加清晰.
文献关键词:
骨导语音增强;时频注意力机制;U-Net
中图分类号:
作者姓名:
张玥;张雄伟;孙蒙
作者机构:
中国人民解放军陆军工程大学指挥控制工程学院,江苏南京210007
文献出处:
引用格式:
[1]张玥;张雄伟;孙蒙-.基于时频注意力机制与U-Net的骨导语音鲁棒增强方法)[J].信号处理,2022(10):2134-2143
A类:
时频注意力机制,骨导语音增强
B类:
Net,增强方法,导数,音高,说话,失真程度,有效学习,频谱特征,增强模型,人骨,语音数据,数据集增强,增强效果,时频信息,分特征,特征信息,重要程度,分配权重,气导,模型重构,全频,频带,比基,PESQ,STOI,客观评价指标
AB值:
0.213614
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。