典型文献
使用变分自编码器的自回归多说话人中文语音合成
文献摘要:
常见的多说话人语音合成有参数自适应及添加说话人标签两种方法.参数自适应方法获得的模型仅支持合成经过自适应的说话人的语音,模型不够鲁棒.传统的添加说话人标签的方法需要有监督地获得语音的说话人信息,并没有从语音信号本身无监督地学习说话人标签.为解决这些问题,提出了一种基于变分自编码器的自回归多说话人语音合成方法.方法首先利用变分自编码器无监督地学习说话人的信息并将其隐式编码为说话人标签,之后与文本的语言学特征送入到一个自回归声学参数预测网络中.此外,为了抑制多说话人语音数据引起的基频预测过拟合问题,声学参数网络采用了基频多任务学习的方法.预实验表明,自回归结构的加入降低了频谱误差1.018 dB,基频多任务学习降低了基频均方根误差6.861 Hz.在后续的多说话人对比实验中,提出的方法在3个多说话人实验的平均主观意见分(MOS)打分上分别达到3.71,3.55,3.15,拼音错误率分别为6.71%,7.54%,9.87%,提升了多说话人语音合成的音质.
文献关键词:
中图分类号:
作者姓名:
蒿晓阳;张鹏远
作者机构:
中国科学院声学研究所语言声学与内容理解重点实验室 北京 100190;中国科学院大学 北京 100049
文献出处:
引用格式:
[1]蒿晓阳;张鹏远-.使用变分自编码器的自回归多说话人中文语音合成)[J].声学学报,2022(03):405-416
A类:
B类:
变分自编码器,自回归,说话,语音合成,人语,参数自适应,加说,自适应方法,有监督,语音信号,无监督,地学,合成方法,隐式,语言学特征,送入,声学参数,参数预测,预测网络,语音数据,基频,过拟合,多任务学习,预实验,dB,MOS,打分,拼音,错误率,音质
AB值:
0.286785
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。