面向小语种机器翻译的平行语料库构建方法|刘妍;熊德意 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

面向小语种机器翻译的平行语料库构建方法

文献摘要：

神经机器翻译模型的训练效果在很大程度上取决于平行语料库的规模和质量.除了一些常见语言外,汉语与小语种间高质量平行语料库的建设一直处于滞后状态.现有小语种平行语料库多采用自动句子对齐技术利用网络资源构建而成,在文本质量和领域等方面有诸多局限性.采用人工翻译的方式可以构建高质量平行语料库,但是缺乏相关经验和方法.文中从机器翻译实践者和研究者角度出发,介绍了经济高效的人工构建小语种平行语料库的工作,包括其总体目标、实施过程、流程细节和最后结果.在构建过程中尝试并积累了各种经验,形成了小语种到汉语平行语料库构建方法、建议的总结.最终,成功构建了波斯语到汉语、印地语到汉语、印度尼西亚语到汉语各50万条高质量平行语料.实验结果表明,所构建的平行语料库有较好的质量,提高了小语种神经机器翻译模型的训练效果.

文献关键词：

平行语料库;小语种;神经机器翻译模型

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 语言、文字（H） / 常用外国语（H3） / 英语（H31） / 写作、修辞（H315） / 翻译（H315.9）

[3] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391） / 翻译机（TP391.2）

作者姓名：

刘妍;熊德意

作者机构：

天津大学智能与计算学部天津 300350

文献出处：

计算机科学

引用格式：

[1]刘妍;熊德意-.面向小语种机器翻译的平行语料库构建方法)[J].计算机科学,2022(01):41-46

A类：

印度尼西亚语,尼西亚语,西亚语

B类：

小语种,平行语料库,语料库构建,构建方法,神经机器翻译模型,训练效果,种间,句子,对齐,利用网络,网络资源,资源构建,文本质量,人工翻译,翻译实践,实践者,总体目标,构建过程,波斯语,印地语,万条

AB值：

0.180032

相似文献

基于变分信息瓶颈的半监督神经机器翻译

于志强;余正涛;黄于欣;郭军军;高盛祥-昆明理工大学信息工程与自动化学院昆明650500;云南民族大学数学与计算机科学学院昆明650500;云南省人工智能重点实验室昆明650500

基于预训练表示模型的英语词语简化方法

强继朋;钱镇宇;李云;袁运浩;朱毅-扬州大学信息工程学院扬州225127

基于篇章的汉语句法结构树库

卢露;矫红岩;李梦;荀恩东-北京语言大学信息科学学院北京100083

噪音过滤和深度学习相结合的安全缺陷报告识别

蒋远;牟辰光;苏小红;王甜甜-哈尔滨工业大学计算学部哈尔滨 150001

融合语料库特征与图注意力网络的短文本分类方法

杨世刚;刘勇国-电子科技大学信息与软件工程学院,成都610054

基于源语言句法增强解码的神经机器翻译方法

龚龙超;郭军军;余正涛-昆明理工大学信息工程与自动化学院,昆明 650504;云南省人工智能重点实验室(昆明理工大学),昆明 650504

融合双向依存自注意力机制的神经机器翻译

李治瑾;赖华;文永华;高盛祥-昆明理工大学信息工程与自动化学院,昆明 650504;云南省人工智能重点实验室(昆明理工大学),昆明 650504

数据增广策略在英语语法纠错中的应用综述

孙晓东;杨东强-山东建筑大学计算机科学与技术学院,济南 250101

探索低资源的迭代式复述生成增强方法

张琳;刘明童;张玉洁;徐金安;陈钰枫-北京交通大学计算机与信息技术学院,北京100044

基于注意力迁移的跨语言关系抽取方法

吴婧;杨百龙;田罗庚-火箭军工程大学信息与通信工程系,西安710000;国防科技大学信息通信学院,西安710000

BETES:一种中文长文档抽取式摘要方法

王宗辉;李宝安;吕学强;游新冬-北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101;北京信息科技大学计算机学院,北京100101

融合字根信息的卷积神经网络中文分词方法

王星;于丽美;陈吉-辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛125105

融入语言差异化特征的汉越神经机器翻译译文质量估计

邹翔;朱俊国;高盛祥;余正涛;杨福岸-昆明理工大学信息工程与自动化学院,昆明650500;昆明理工大学云南省人工智能重点实验室,昆明650500

BERT模型结合实体向量的知识图谱实体抽取方法

陈玮;张锐;尹钟-上海理工大学光电信息与计算机工程学院,上海200093

基于ALBERT-BGRU-CRF的中文命名实体识别方法

李军怀;陈苗苗;王怀军;崔颖安;张爱华-西安理工大学计算机科学与工程学院,西安 710048;中铝萨帕特种铝材(重庆)有限公司,重庆 401326

一种通过评价类别分类提升评价对象抽取性能的方法

崔伟琪;严馨;滕磊;陈玮;徐广义-昆明理工大学信息工程与自动化学院,昆明 650504;昆明理工大学云南省人工智能重点实验室,昆明 650504;湖南快乐阳光互动娱乐传媒有限公司,长沙 410000;云南南天电子信息产业股份有限公司,昆明 650040

结合残差BiLSTM与句袋注意力的远程监督关系抽取

江旭;钱雪忠;宋威-江南大学人工智能与计算机学院,江苏无锡 214112

面向未登录词及多义词的共现性词嵌入改进

李保珍;顾秀莲-南京审计大学信息工程学院,江苏南京 211815

基于GAN模型优化的神经机器翻译

熊伟;高娟娟;刘锴-华北电力大学保定计算机系,保定071003;华北电力大学保定复杂能源系统智能计算工程研究中心,保定071003

面向神经机器翻译的枢轴方法研究综述

黎家全;王丽清;李鹏;蒋晓敏;徐永跃-云南大学信息学院,昆明 650091;云南广播电视台,昆明 650500

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。