首站-论文投稿智能助手
典型文献
基于CycleGAN的语音可懂度关键技术
文献摘要:
语音可懂度增强是一种在嘈杂环境中再现清晰语音的感知增强技术.许多研究通过说话风格转换(SSC)来增强语音可懂度,这种方法仅依靠伦巴第效应,因此在强噪声干扰下效果不佳.SSC还利用简单的线性变换对基频(F0)的转换进行建模,并且只映射很少维的梅尔倒谱系数(MCEPs).因为F0和MCEPs是语音的两个重要特征,对这些特征进行充分的建模是非常必要的.因此本文进行了一个创新性研究即通过连续小波变换(CWT)将F0分解为10维来描述不同时间尺度的语音,以实现F0的有效转换,而且使用20维表示MCEPs实现MCEPs的转换.除此之外,还利用iMetricGAN网络来优化强噪声中的语音可懂度指标.实验结果表明,提出的基于CycleGAN使用CWT和iMetricGAN的非平行语音风格转换方法(NS-CiC)在客观和主观评价上均显著提高了强噪声环境下的语音可懂度.
文献关键词:
深度学习;可懂度增强;连续小波变换;iMetricGAN;CycleGAN
作者姓名:
肖晶;刘佳奇;李登实;赵兰馨;王前瑞
作者机构:
武汉大学 计算机学院 国家多媒体软件工程技术研究中心, 武汉 430072;武汉大学 多媒体与网络通信工程湖北省重点实验室, 武汉 430072;江汉大学 人工智能学院, 武汉 430056
文献出处:
引用格式:
[1]肖晶;刘佳奇;李登实;赵兰馨;王前瑞-.基于CycleGAN的语音可懂度关键技术)[J].计算机系统应用,2022(06):1-9
A类:
可懂度增强,MCEPs,iMetricGAN,CiC
B类:
CycleGAN,语音可懂度,嘈杂,感知增强,增强技术,说话,风格转换,SSC,伦巴第,强噪声,噪声干扰,线性变换,基频,F0,梅尔倒谱系数,创新性研究,连续小波变换,CWT,不同时间尺度,除此之外,转换方法,NS,主观评价,噪声环境
AB值:
0.277508
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。