首站-论文投稿智能助手
典型文献
小数据下的音素级别说话人嵌入的语音合成自适应方法
文献摘要:
在语音合成中,使用少量的用户录制数据进行说话人自适应一直面临着一个问题:如何在不过分降低合成声音的自然度的情况下,提高合成声音的相似度.现有的句子级别、帧级别说话人嵌入等自适应方法在合成训练集外说话人声音时会出现低相似度的问题.使用少量的用户录制数据微调预训练的语音合成模型的自适应方法尽管能提升合成音频的相似度,但是也常伴随着自然度的下降.为了解决这个问题,本文提出了一种基于音素级别的说话人嵌入的语音合成自适应方法.在训练阶段,从真实的特征片段中提取音素级别的说话人嵌入,控制语音合成模型的训练.在自适应阶段,通过对说话人嵌入预测网络进行快速自适应,在推理阶段代替真实音频得到音素级别说话人嵌入帮助模型合成音频.实验使用了少量真实的用户录制数据,对现在主流的不同粒度的说话人嵌入方法进行了性能比较.实验表明,相比较各种不同的说话人嵌入方法,本文提出的方法在不更新语音合成模型的情况下保持自然度不明显下降,并取得了最好相似度;在更新语音合成模型的情况下,该方法同时达到了最好的自然度和相似度.分析发现音素级别的说话人嵌入方法在几乎不增加自适应训练时间的情况下,提供了更好的模型自适应初始点,有效地提高了自适应模型合成声音的质量.
文献关键词:
语音合成;说话人嵌入;时长模型;小数据;说话人自适应
作者姓名:
徐志航;陈博;张辉;俞凯
作者机构:
上海交通大学人工智能研究院人工智能教育部重点实验室 上海 200240;上海交通大学计算机科学与工程系跨媒体语言智能实验室 上海 200240;苏州思必驰信息科技有限公司 江苏苏州 215000
文献出处:
引用格式:
[1]徐志航;陈博;张辉;俞凯-.小数据下的音素级别说话人嵌入的语音合成自适应方法)[J].计算机学报,2022(05):1003-1017
A类:
说话人嵌入,说话人自适应,时长模型
B类:
小数据,音素,别说,语音合成,自适应方法,录制,自然度,句子级,训练集,人声,微调,预训练,合成模型,音频,训练阶段,预测网络,快速自适应,不同粒度,性能比较,新语,自适应训练,训练时间,模型自适应,初始点,适应模型
AB值:
0.195368
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。