典型文献
蒙汉语音翻译数据集
文献摘要:
目前,由于缺乏公开数据集,面向少数民族语言的语音翻译的研究较少.为此,本文构建并公开了蒙语语音到汉语文本语音翻译数据集(NMLR-Mon2Chs ST).本数据集包含36位年龄在20–25岁之间的蒙古人通过手机录制的蒙语语音,以及由专业人员标注的蒙语和汉语的文本.为保证数据质量,对数据进行了预处理,如去除空语音文件、重采样、归一化后,最终得到25小时的高质量数据,数据集中音频的平均时长为4.2秒.本数据集的建立为探索面向少数民族语言的语音翻译技术提供了一定的数据基础.
文献关键词:
语音翻译;蒙汉;少数民族语言;低资源;数据集
中图分类号:
作者姓名:
戚肖克;特尼格尔;孙媛;赵小兵
作者机构:
中国政法大学,北京 102249;国家语言资源监测与研究少数民族语言中心,北京 100081;中央民族大学中国少数民族语言文学学院,北京 100081
文献出处:
引用格式:
[1]戚肖克;特尼格尔;孙媛;赵小兵-.蒙汉语音翻译数据集)[J].中国科学数据(中英文网络版),2022(02):84-90
A类:
NMLR,Mon2Chs
B类:
蒙汉,语音翻译,公开数据集,少数民族语言,蒙语,语语,汉语文本,ST,蒙古人,人通,过手,录制,专业人员,保证数据,数据质量,重采样,质量数据,中音,音频,立为,翻译技术,数据基础,低资源
AB值:
0.312549
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。