典型文献
机器翻译辅助的中蒙、维汉语音翻译数据集子集
文献摘要:
目前,语音翻译的公开数据集稀少,中文与其他低资源语言的双向语音翻译数据集尤其匮乏,阻碍了相关语言端到端语音翻译研究的推进.本文参考国际语音翻译数据集研究思想,将公开的语音识别数据集(AISHELL、THUYG-20)通过机器翻译,转换成语音翻译数据集,进行数据处理后交由专家审核、校验,从而得到高质量语音翻译数据集.本数据集包括中蒙语音翻译数据集和维汉语音翻译数据集两部分,音频采样率是16 kHz.中蒙语音翻译数据集包含样本1919条,大小为238 MB.维汉语音翻译数据集包含样本3692条,大小为652 MB.本数据集可用于端到端语音翻译的研究,为探索中文与少数民族语言的语音翻译提供数据支撑,也可结合语音识别数据集用于研究机器翻译.
文献关键词:
语音翻译;中蒙;维汉;低资源
中图分类号:
作者姓名:
李宁;朱丽平;赵小兵;木尼热·艾尔肯
作者机构:
中央民族大学信息工程学院,北京 100081;国家语言资源监测与研究少数民族语言中心,北京 100081
文献出处:
引用格式:
[1]李宁;朱丽平;赵小兵;木尼热·艾尔肯-.机器翻译辅助的中蒙、维汉语音翻译数据集子集)[J].中国科学数据(中英文网络版),2022(02):11-19
A类:
THUYG
B类:
机器翻译,中蒙,维汉,语音翻译,集子,子集,公开数据集,稀少,低资源语言,端到端,翻译研究,语音识别,别数,AISHELL,转换成,成语,交由,校验,蒙语,音频,采样率,kHz,MB,少数民族语言,合语
AB值:
0.246894
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。