U-net网络中融合多头注意力机制的单通道语音增强|范君怡;杨吉斌;张雄伟;郑昌艳|陆军工程大学指挥控制工程学院南京 210007 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

典型文献

U-net网络中融合多头注意力机制的单通道语音增强

文献摘要：

在低信噪比和突发背景噪声条件下,已有的深度学习网络模型在单通道语音增强方面效果并不理想,而人类可以利用语音的长时相关性对不同的语音信号形成综合感知.因此刻画语音的长时依赖关系有助于改进低信噪比和突发背景噪声下的增强性能.受该特性的启发,提出一种融合多头注意力机制和U-net深度网络的增强模型TU-net,实现基于时域的端到端单通道语音增强.TU-net网络模型采用U-net网络的编解码层对带噪语音信号进行多尺度特征融合,并利用多头注意力机制实现双路径Transformer,用于计算语音掩模,更好地建模长时相关性.该模型在时域、时频域和感知域计算损失函数,并通过加权组合损失函数指导训练.仿真实验结果表明,TU-net在低信噪比和突发背景噪声条件下增强语音信号的语音质量感知评估(PESQ)、短时客观可懂度(STOI)和信噪比增益等多个评价指标都优于同类的单通道增强网络模型,且保持相对较少的网络模型参数.

文献关键词：

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 模式识别与装置（TP391.4）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 人工神经网络与计算（TP183）

[3] 无线电电子学、电信技术（TN） / 通信（TN91） / 电声技术和语音信号处理（TN912） / 语音信号处理（TN912.3） / 语音增强（TN912.35）

作者姓名：

范君怡;杨吉斌;张雄伟;郑昌艳

作者机构：

陆军工程大学研究生院南京 210007;陆军工程大学指挥控制工程学院南京 210007;火箭军士官学校测试控制系青州 262500

文献出处：

声学学报

引用格式：

[1]范君怡;杨吉斌;张雄伟;郑昌艳-.U-net网络中融合多头注意力机制的单通道语音增强)[J].声学学报,2022(06):703-716

A类：

B类：

net,多头注意力机制,单通道语音增强,低信噪比,背景噪声,噪声条件,深度学习网络,语音信号,综合感知,此刻,画语,依赖关系,增强性能,深度网络,增强模型,TU,端到端,编解码,多尺度特征融合,双路径,Transformer,掩模,模长,时频域,组合损失函数,指导训练,语音质量,质量感知,感知评估,PESQ,STOI,信噪比增益,通道增强

AB值：

0.332193

相似文献

基于移位窗口多头自注意力U型网络的低照度图像增强方法

孙帮勇;赵兴运;吴思远;于涛-西安理工大学印刷包装与数字媒体学院西安 710048;中国科学院西安光学精密机械研究所光谱成像技术重点实验室西安 710119

基于异质图注意力网络的miRNA与疾病关联预测算法

李政伟;李佳树;尤著宏;聂茹;赵欢;钟堂波-中国矿业大学矿山数字化教育部工程研究中心,江苏徐州221116;中国矿业大学计算机科学与技术学院,江苏徐州221116;西北工业大学计算机学院,陕西西安710129

融合数据预滤波和频谱展宽的骨导语音增强方法

张玥;邦锦阳;孙蒙;张雄伟-陆军工程大学指挥控制工程学院,江苏南京 210007

单通道语音增强中深度学习方法研究现状与展望

张雄伟;李毅豪;孙蒙;张强-陆军工程大学指挥控制工程学院,江苏南京 210007

反射声对室内声景主观评价的影响初探