典型文献
藏语方言语音合成数据集
文献摘要:
本研究构建并公开了藏语卫藏、安多和康巴三大方言的语音合成数据集.本数据集来源于喜马拉雅FM听音软件,内容包含新闻、法律知识、生活常识、小故事等.数据集中的音频由专业的播音员录播而成,能够保证发音的准确性,通过用专业的音频软件切割播音内容,提供10多小时约8.02 GB的音频及对应的文本数据,共4684条句子.文本经过藏语专业人员审核,能够保证语法的正确性.从字丁、音标、语音现象的均衡覆盖率等多方面对数据集的质量评估表明,本数据集对各方言语言特征覆盖率高,且语音现象覆盖均衡.本数据集可以为研究藏语方言语音合成提供数据支撑,同时还可以作为研究藏语三大方言语音发音、停顿、韵律、节奏等语音特征的语料库.
文献关键词:
语音合成;安多方言;卫藏方言;康巴方言;数据集
中图分类号:
作者姓名:
仁曾卓玛;朱丽平
作者机构:
中央民族大学信息工程学院,北京 100081;国家语言资源监测与研究少数民族语言中心,北京 100081
文献出处:
引用格式:
[1]仁曾卓玛;朱丽平-.藏语方言语音合成数据集)[J].中国科学数据(中英文网络版),2022(02):20-29
A类:
安多方言,卫藏方言,康巴方言
B类:
藏语方言,语音合成,合成数据集,研究构建,喜马拉雅,FM,听音,法律知识,常识,小故事,音频,播音员,录播,发音,文本数据,句子,专业人员,语法,音标,语音现象,质量评估,评估表,语言特征,停顿,韵律,语音特征,语料库
AB值:
0.277928
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。