典型文献
基于多种数据筛选的维汉神经机器翻译
文献摘要:
为了得到更好的翻译结果,研究者对于利用平行数据生成大量高质量生成数据进行了广泛的研究.为此,针对数据增强和系统训练方法,提出结合知识蒸馏、数据增强和数据筛选的方法得到高质量生成数据.具体为利用知识蒸馏的方法得到鲁棒性更强的汉维翻译模型,在该汉维模型的基础之上通过反向翻译的方法生成质量较好的生成数据,并利用不同的数据筛选方法进一步得到高质量生成数据.之后利用现有的平行数据和生成数据训练得到一个高性能的维吾尔语-汉语神经机器翻译系统.在CCMT2021维汉评测任务中验证上述方法对于维汉翻译质量的影响,对比基线系统、反向翻译和同任务其他系统,该方法训练得到的系统有着更好的翻译结果,并在该翻译任务上获得了第一名.
文献关键词:
维汉翻译;自注意力机制;低资源翻译
中图分类号:
作者姓名:
宜年;艾山·吾买尔;买合木提·买买提;吐尔根·依布拉音
作者机构:
新疆大学信息科学与工程学院 新疆多语种信息技术重点实验室,新疆 乌鲁木齐 830046
文献出处:
引用格式:
[1]宜年;艾山·吾买尔;买合木提·买买提;吐尔根·依布拉音-.基于多种数据筛选的维汉神经机器翻译)[J].厦门大学学报(自然科学版),2022(04):660-666
A类:
CCMT2021,低资源翻译
B类:
数据筛选,神经机器翻译,了得,数据生成,质量生成,数据增强,系统训练,训练方法,知识蒸馏,翻译模型,反向翻译,筛选方法,数据训练,练得,维吾尔语,翻译系统,评测,于维汉,维汉翻译,翻译质量,比基,方法训练,第一名,自注意力机制
AB值:
0.347054
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。