典型文献
一种融合多通道CycleGAN和Mixup的情感语音合成方法
文献摘要:
现有的循环一致性生成对抗网络(CycleGAN)提供了一个双向情感语料转化的突破,但是真实目标和转换后的语音之间仍然存在很大的差距.为了缩小这一差距,提出融合多通道CycleGAN和Mixup的情感语音合成方法,包含三个阶段:多通道CycleGAN、基于Mixup的损失估计和基于Mixup的有效情感区域加重.其中,设计门控单元GTLU和音频显著性区域的图像表达方法,结合基于改进GTLU的全局CycleGAN和基于显著性区域的局部CycleGAN构成了第一个阶段中的多通道CycleGAN,基于Mixup方法设计了损失的计算方法和情感区域的不同加重程度计算.结合多项流行的语音合成方法,在IEMOCAP情感语料库上实施了多组生成情感语料的对比实验,利用双向三层长短期记忆网络(LSTM)模型作为验证模型,实验结果证明,所提出的情感语音合成方法获得的语音,其平均意见得分(MOS)和语音情感识别精度(UA)均有不同程度的提升,分别获得3.4%和2.7%的改善,在主观评价和客观实验上均优于现有的GANs模型,从而确保该模型生成语音具备高可靠性和良好的自然度.
文献关键词:
情感语音合成;多通道CycleGAN;Mixup;GTLU;图像重构;损失估计;有效情感区域加重
中图分类号:
作者姓名:
贾宁;郑纯军
作者机构:
大连东软信息学院,辽宁 大连 116023
文献出处:
引用格式:
[1]贾宁;郑纯军-.一种融合多通道CycleGAN和Mixup的情感语音合成方法)[J].现代电子技术,2022(15):80-87
A类:
有效情感区域加重,GTLU
B类:
多通道,CycleGAN,Mixup,情感语音合成,合成方法,循环一致性生成对抗网络,一个双,损失估计,门控单元,和音,音频,显著性区域,图像表达,表达方法,方法设计,IEMOCAP,语料库,长短期记忆网络,验证模型,平均意见得分,MOS,语音情感识别,识别精度,UA,主观评价,GANs,模型生成,成语,高可靠性,自然度,图像重构
AB值:
0.262338
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。