典型文献
基于i向量和变分自编码相对生成对抗网络的语音转换
文献摘要:
提出一种基于i向量和变分自编码相对生成对抗网络的语音转换方法,实现了非平行文本条件下高质量的多对多语音转换.性能良好的语音转换系统,既要保持重构语音的自然度,又要兼顾转换语音的说话人个性特征是否准确.首先为了改善合成语音自然度,利用生成性能更好的相对生成对抗网络代替基于变分自编码生成对抗网络模型中的Wasserstein生成对抗网络,通过构造相对鉴别器的方式,使得鉴别器的输出依赖于真实样本和生成样本间的相对值,克服了 Wasser-stein 生成对抗网络性能不稳定和收敛速度较慢等问题.进一步为了提升转换语音的说话人个性相似度,在解码阶段,引入含有丰富个性信息的i向量,以充分学习说话人的个性化特征.客观和主观实验表明,转换后的语音平均梅尔倒谱失真距离值较基准模型降低4.80%,平均意见得分值提升5.12%,ABX值提升8.60%,验证了该方法在语音自然度和个性相似度两个方面均有显著的提高,实现了高质量的语音转换.
文献关键词:
语音转换;相对生成对抗网络;i向量;非平行文本;变分自编码器;多对多
中图分类号:
作者姓名:
李燕萍;曹盼;左宇涛;张燕;钱博
作者机构:
南京邮电大学通信与信息工程学院 南京210003;金陵科技学院 南京211169;南京电子技术研究所 南京210039
文献出处:
引用格式:
[1]李燕萍;曹盼;左宇涛;张燕;钱博-.基于i向量和变分自编码相对生成对抗网络的语音转换)[J].自动化学报,2022(07):1824-1833
A类:
相对生成对抗网络,非平行文本,Wasser
B类:
语音转换,转换方法,本条,多对多,多语,转换系统,持重,自然度,说话,个性特征,先为,合成语音,生成性,Wasserstein,鉴别器,实样,相对值,网络性能,收敛速度,较慢,解码,个性化特征,失真,平均意见得分,ABX,变分自编码器
AB值:
0.199589
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。