典型文献
基于Spark的大规模机器翻译系统研究
文献摘要:
为提高大规模机器翻译准确率和翻译效率,基于EM分布式训练方法,提出基于Spark的大规模机器翻译方法.首先,在机器翻译模型的基础上对并行化训练方法和机器翻译系统框架进行分析,然后提出EM分布式并行算法和框架,针对短语翻译模型和层次翻译模型训练的特点,利用单机多线程工具MGIZA++构建完整的词对齐训练方法对短语翻译模型进行训练;最后通过实验验证提出算法对翻译模型的应用效果.实验结果表明,采用Align_on_MGIZA模型后,短语翻译速度比Chaski模型快了2倍,翻译速度显著提升,训练时间更短,仅用了该算法可以适用于短语翻译模型的高效准确翻译,说明系统性能优越,更具有效性.
文献关键词:
机器翻译;词对齐;Spark;大规模训练;并行化算法
中图分类号:
作者姓名:
赵崇俊
作者机构:
咸阳师范学院,陕西咸阳712000
文献出处:
引用格式:
[1]赵崇俊-.基于Spark的大规模机器翻译系统研究)[J].自动化与仪器仪表,2022(03):73-77
A类:
短语翻译模型,MGIZA++,MGIZA,Chaski,并行化算法
B类:
Spark,机器翻译,翻译系统,翻译效率,EM,分布式训练,训练方法,翻译方法,系统框架,并行算法,模型训练,单机,多线程,词对齐,Align,on,速度比,训练时间,系统性能,性能优越,大规模训练
AB值:
0.266044
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。