首站-论文投稿智能助手
典型文献
结合BERT数据增强的基于词切分的蒙汉神经机器翻译系统
文献摘要:
神经机器翻译是目前机器翻译领域主流研究方法,但是蒙汉平行语料的稀缺使得蒙汉神经机器翻译性能难以提升.本文针对基于Transformer的蒙汉神经机器翻译系统,利用深度学习模型对蒙古文词切分方法进行研究,分析了蒙古文部分切分、BPE子词切分和BiLSTM-CNN-CRF神经网络切分方法对于蒙汉机器翻译模型的影响,并在此基础上利用基于BERT(bidirectional encoder representations from Transformers)中文语义相似度计算的数据增强技术去扩充蒙汉机器翻译训练数据.在CCMT2019提供的数据集上进行对比实验,实验结果表明,数据增强方法的BLEU值相较于基线实验提升显著,且BLEU4值达到了75.28%.
文献关键词:
蒙汉神经机器翻译;Transformer神经网络;BERT;语义相似度
作者姓名:
何乌云;秀芝;包晶晶;陈美兰;王斯日古楞
作者机构:
内蒙古师范大学计算机科学技术学院,内蒙古 呼和浩特 011500
引用格式:
[1]何乌云;秀芝;包晶晶;陈美兰;王斯日古楞-.结合BERT数据增强的基于词切分的蒙汉神经机器翻译系统)[J].厦门大学学报(自然科学版),2022(04):667-674
A类:
CCMT2019
B类:
BERT,词切分,蒙汉神经机器翻译,翻译系统,前机,平行语料,稀缺,翻译性能,深度学习模型,蒙古文,文词,文部,分切,BPE,子词,BiLSTM,CRF,蒙汉机器翻译,翻译模型,bidirectional,encoder,representations,from,Transformers,语义相似度,相似度计算,数据增强技术,训练数据,增强方法,BLEU4
AB值:
0.315024
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。