典型文献
基于提高伪平行句对质量的无监督领域适应机器翻译
文献摘要:
神经机器翻译系统的良好性能依赖于大规模内领域双语平行数据,当特定领域数据稀疏或不存在时,领域适应是个很好的解决办法.无监督领域适应方法通过构建伪平行语料来微调预训练的翻译模型,然而现有的方法没有充分考虑语言的语义、情感等特性,导致目标领域的翻译包含大量的错误和噪声,从而影响到模型的跨领域性能.为缓解这一问题,从模型和数据2个方面来提高伪平行句对的质量,以提高模型的领域自适应能力.首先,提出更加合理的预训练策略来学习外领域数据更为通用的文本表示,增强模型的泛化能力,同时提高内领域的译文准确性;然后,融合句子的情感信息进行后验筛选,进一步改善伪语料的质量.实验表明,该方法在中-英与英-中实验上比强基线系统反向翻译的BLEU值分别提高了1.25和1.38,可以有效地提高翻译效果.
文献关键词:
神经网络;神经机器翻译;领域适应;模型优化;情感信息
中图分类号:
作者姓名:
肖妮妮;金畅;段湘煜
作者机构:
苏州大学计算机科学与技术学院自然语言处理实验室,江苏苏州 215006
文献出处:
引用格式:
[1]肖妮妮;金畅;段湘煜-.基于提高伪平行句对质量的无监督领域适应机器翻译)[J].计算机工程与科学,2022(12):2230-2237
A类:
B类:
对质,无监督,领域适应,神经机器翻译,翻译系统,好性,双语,特定领域,数据稀疏,解决办法,平行语料,微调,预训练,翻译模型,跨领域,领域性,领域自适应,自适应能力,训练策略,文本表示,增强模型,泛化能力,译文,句子,情感信息,反向翻译,BLEU,模型优化
AB值:
0.417805
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。