典型文献
MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型
文献摘要:
针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonT TS.为了提高MonT TS模型合成蒙古语语音的韵律自然度/保真度,根据蒙古语声学特点提出以下三点创新改进:①使用蒙古文音素序列来表征蒙古文发音信息;②提出音素级的声学调节器以学习长时韵律变化;③提出基于蒙古语语音识别和自回归语音合成两种时长对齐方法.同时,该文构建了一个当前最大规模的蒙古语语音合成数据库:MonSpeech.实验结果表明,MonTTS在韵律自然度方面的主观平均意见分数(Mean Opinion Score,MOS)达到4.53,显著优于当前最优的基于Tacotron的蒙古语语音合成基线系统和基线FastSpeech2模型;MonT TS合成实时率达3.63×10-3,满足实时高保真合成要求.最后,文中涉及的训练脚本和预训练模型全部开源().
文献关键词:
蒙古语语音合成;非自回归声学建模;非自回归神经声码器;实时;高保真
中图分类号:
作者姓名:
刘瑞;康世胤;高光来;李劲东;飞龙
作者机构:
内蒙古大学计算机学院,内蒙古呼和浩特010021;虎牙科技有限公司,广东广州511400;搜狗科技发展有限公司,北京100084
文献出处:
引用格式:
[1]刘瑞;康世胤;高光来;李劲东;飞龙-.MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型)[J].中文信息学报,2022(07):86-97
A类:
MonTTS,蒙古语语音合成,FastSpeech2,MonT,MonSpeech,非自回归声学建模,非自回归神经声码器
B类:
高保真,合成模型,Tacotron,合成系,合成效率,合成语音,保真度,韵律,自然度,语声,创新改进,蒙古文,音素,文发,发音,音信,调节器,语音识别,对齐方法,合成数据,Mean,Opinion,Score,MOS,时率,脚本,预训练模型,全部开,开源
AB值:
0.204311
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。