典型文献
一种基于改进注意力机制的实时鲁棒语音合成方法
文献摘要:
针对现有的语音合成系统Tacotron 2中存在的注意力模型学习慢、合成语音不够鲁棒以及合成语音速度较慢等问题,提出了三点改进措施:1.采用音素嵌入作为输入,以减少一些错误发音问题;2.引入一种注意力损失来指导注意力模型的学习,以实现其快速、准确的学习能力;3.采用WaveGlow模型作为声码器,以加快语音生成的速度.在LJSpeech数据集上的实验表明,改进后的网络提高了注意力学习的速度和精度,合成语音的错误率相比基线降低了33.4%;同时,整个网络合成语音的速度相比之下提升约523倍,实时因子(Real Time Factor,RTF)为0.96,满足实时性的要求;此外,在语音质量方面,合成语音的平均主观意见分(Mean Opinion Score,MOS)达到3.88.
文献关键词:
语音合成;注意力损失机制;Tacotron 2;WaveGlow;序列到序列
中图分类号:
作者姓名:
唐君;张连海;李嘉欣
作者机构:
中国人民解放军战略支援部队信息工程大学信息系统工程学院,河南郑州450001
文献出处:
引用格式:
[1]唐君;张连海;李嘉欣-.一种基于改进注意力机制的实时鲁棒语音合成方法)[J].信号处理,2022(03):527-535
A类:
WaveGlow,LJSpeech,注意力损失机制
B类:
改进注意力机制,语音合成,合成方法,合成系,Tacotron,注意力模型,模型学习,合成语音,音速,较慢,音素,发音问题,声码,码器,快语,语音生成,错误率,比基,网络合成,相比之下,Real,Time,Factor,RTF,语音质量,Mean,Opinion,Score,MOS,序列到序列
AB值:
0.411074
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。