典型文献
AMR文本生成的数据扩充方法
文献摘要:
在抽象语义表示(AMR)文本生成过程中,AMR图到文本形式的转换在很大程度上受语料规模的影响.提出一种简单有效的动态数据扩充方法,在已标注数据集规模有限的情况下提高AMR文本生成性能.将AMR文本生成模型解码端视作一个语言模型,使用单词级别的扩充方法,通过动态地对目标端单词进行随机替换,得到带噪声的数据,从而增强模型的泛化能力.在加载数据时,随机选择目标句子中的部分单词做噪声化处理,利用约束编码器预测被覆盖的单词并还原出原始语句,使模型具有更深层的语言表征能力.基于AMR2.0和AMR3.0英文标准数据集进行实验,结果表明,该方法可有效提升AMR文本生成系统性能,与未引入噪声的基准Transformer模型相比,能够获得更优的BLEU、Meteor和chrF++指标,其中BLEU值在人工标注语料场景下分别提升0.68和0.64,且在大规模自动标注语料场景下也能提升0.60和0.68.
文献关键词:
抽象语义表示;语料规模;AMR文本生成;动态数据扩充;噪声
中图分类号:
作者姓名:
付叶蔷;李军辉
作者机构:
苏州大学 计算机科学与技术学院,江苏 苏州 215006
文献出处:
引用格式:
[1]付叶蔷;李军辉-.AMR文本生成的数据扩充方法)[J].计算机工程,2022(05):91-97
A类:
动态数据扩充,AMR2,AMR3,Meteor,chrF++,大规模自动标注语料
B类:
文本生成,抽象语义表示,生成过程,文本形式,语料规模,生成性,生成模型,解码,端视,语言模型,单词级,增强模型,泛化能力,随机选择,句子,编码器,被覆,语句,语言表征,表征能力,标准数据集,系统性能,Transformer,BLEU,料场
AB值:
0.255958
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。