典型文献
面向小语种机器翻译的平行语料库构建方法
文献摘要:
神经机器翻译模型的训练效果在很大程度上取决于平行语料库的规模和质量.除了一些常见语言外,汉语与小语种间高质量平行语料库的建设一直处于滞后状态.现有小语种平行语料库多采用自动句子对齐技术利用网络资源构建而成,在文本质量和领域等方面有诸多局限性.采用人工翻译的方式可以构建高质量平行语料库,但是缺乏相关经验和方法.文中从机器翻译实践者和研究者角度出发,介绍了经济高效的人工构建小语种平行语料库的工作,包括其总体目标、实施过程、流程细节和最后结果.在构建过程中尝试并积累了各种经验,形成了小语种到汉语平行语料库构建方法、建议的总结.最终,成功构建了波斯语到汉语、印地语到汉语、印度尼西亚语到汉语各50万条高质量平行语料.实验结果表明,所构建的平行语料库有较好的质量,提高了小语种神经机器翻译模型的训练效果.
文献关键词:
平行语料库;小语种;神经机器翻译模型
中图分类号:
作者姓名:
刘妍;熊德意
作者机构:
天津大学智能与计算学部 天津 300350
文献出处:
引用格式:
[1]刘妍;熊德意-.面向小语种机器翻译的平行语料库构建方法)[J].计算机科学,2022(01):41-46
A类:
印度尼西亚语,尼西亚语,西亚语
B类:
小语种,平行语料库,语料库构建,构建方法,神经机器翻译模型,训练效果,种间,句子,对齐,利用网络,网络资源,资源构建,文本质量,人工翻译,翻译实践,实践者,总体目标,构建过程,波斯语,印地语,万条
AB值:
0.180032
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。