典型文献
探索低资源的迭代式复述生成增强方法
文献摘要:
复述生成旨在同一语言内将给定句子转换成语义一致表达不同的句子.目前,基于深度神经网络的复述生成模型的成功依赖于大规模的复述平行语料,当面向新的语言或新的领域时,模型性能急剧下降.面对这一困境,提出低资源的迭代式复述生成增强方法,最大化利用单语语料和小规模复述平行语料迭代式训练复述生成模型并生成复述伪数据,以此增强模型性能.此外,提出了句子流畅性、语义相近性和表达多样性为基准设计的伪数据筛选算法,选取高质量的复述伪数据参与每轮模型的迭代训练.在公开数据集Quora上的实验结果表明,提出的方法仅利用30%的复述语料在语义和多样性指标上均超过了基线模型,验证了所提方法的有效性.
文献关键词:
低资源;迭代式;复述生成;数据增强;筛选算法;神经网络模型;编码-解码框架;注意力机制
中图分类号:
作者姓名:
张琳;刘明童;张玉洁;徐金安;陈钰枫
作者机构:
北京交通大学计算机与信息技术学院,北京100044
文献出处:
引用格式:
[1]张琳;刘明童;张玉洁;徐金安;陈钰枫-.探索低资源的迭代式复述生成增强方法)[J].智能系统学报,2022(04):680-687
A类:
B类:
低资源,迭代式,复述生成,增强方法,一语,句子,转换成,成语,语义一致,深度神经网络,生成模型,平行语料,当面,模型性能,急剧下降,单语,语语,小规模,增强模型,流畅性,相近性,表达多样性,数据筛选,筛选算法,迭代训练,公开数据集,Quora,述语,多样性指标,基线模型,数据增强,解码,注意力机制
AB值:
0.375404
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。