典型文献
融合句子结构特征的汉老双语句子相似度计算方法
文献摘要:
在低资源神经机器翻译中,双语平行句对是重要的数据资源,融合语言结构特点能够较好地解决双语句子由于语言差异性导致的句子相似度计算不准确问题.该文提出一种融合句子结构特征的汉老双语句子相似度计算方法.首先,通过该文提出的特征模板获取汉语和老挝语对应的句子结构特征,预训练含有句子结构特征的汉老双语词向量分布式表示,并使用双语词典将其映射到共享的语义空间,然后通过带有自注意力(self-attention)机制的双向长短时记忆网络(BiLSTM)获取句子的特征向量表示,最后分别计算双语向量的相对差和相对积,将结果拼接后传输到全连接网络层计算出相似度分数.实验结果表明,相比目前主流研究方法,该文方法在有限的语料下取得了更好的效果(F1值为70.24%).
文献关键词:
汉语-老挝语;资源稀缺型语言;句子结构特征;双向长短期记忆网络;自注意力机制
中图分类号:
作者姓名:
李炫达;周兰江;张建安
作者机构:
昆明理工大学 信息工程与自动化学院,云南 昆明 650500
文献出处:
引用格式:
[1]李炫达;周兰江;张建安-.融合句子结构特征的汉老双语句子相似度计算方法)[J].中文信息学报,2022(02):58-68
A类:
句子结构特征,低资源神经机器翻译,资源稀缺型语言
B类:
语句,句子相似度,相似度计算,数据资源,合语,语言结构,语言差异,特征模板,老挝语,预训练,词向量,双语词典,射到,语义空间,self,attention,双向长短时记忆网络,BiLSTM,特征向量,向量表示,拼接,输到,全连接网络,网络层,比目,语料,双向长短期记忆网络,自注意力机制
AB值:
0.232384
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。