首站-论文投稿智能助手
典型文献
基于语种关联度课程学习的多语言神经机器翻译
文献摘要:
近年来,使用单一模型实现多语言神经机器翻译的方法受到了广泛关注.然而,现有方法多将所有语种语料直接混合作为训练语料,未能利用多种语言之间关联和相似的信息.此外,模型训练涉及语言种类多、数据量大、整体训练难度大、耗时长等问题.针对以上两个问题,文中提出了一种基于语种关联度的课程学习方法来提高多语言神经机器翻译的整体性能和收敛速度.具体来说,提出了两种度量语种关联度的指标:使用奇异向量典型相关分析对不同语言进行排序以及使用余弦相似度对特定语言中的不同句子进行排序.进一步,文中提出以验证集损失为课程替换标准的课程学习策略,使模型训练由整体训练转化为一系列课程上的训练,降低了训练难度.该方法填补了课程学习策略在多语言神经机器翻译领域的空白.文中在平衡和非平衡的IWSLT多语言数据集和Europarl语料库数据集上进行了实验,结果表明,所提方法优于多语言基线翻译系统,最多可使训练时间缩短64%.
文献关键词:
机器翻译;多语言;课程学习;关联度评估;语种排序;句子排序
作者姓名:
于东;谢婉莹;谷舒豪;冯洋
作者机构:
北京语言大学信息科学学院 北京 100083;中国科学院计算技术研究所 北京 100190;中国科学院大学 北京 100049
文献出处:
引用格式:
[1]于东;谢婉莹;谷舒豪;冯洋-.基于语种关联度课程学习的多语言神经机器翻译)[J].计算机科学,2022(01):24-30
A类:
多语言神经机器翻译,Europarl,语种排序
B类:
课程学习,模型实现,多种语言,联和,模型训练,数据量,整体性能,收敛速度,具体来说,奇异向量,典型相关分析,余弦相似度,定语,言中,验证集,学习策略,系列课程,非平衡,IWSLT,语言数据,语料库,翻译系统,训练时间,关联度评估,句子排序
AB值:
0.235896
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。