典型文献
一种面向长文本小数据集自动摘要任务的数据增强策略
文献摘要:
当前长文本自动摘要任务缺乏充足的数据集,限制了该领域相关算法、模型的研究.数据增强是在不直接补充训练数据的情况下增加训练数据的方法.针对上述长文本自动摘要数据缺乏问题,基于CogLTX框架,该文提出了一种面向长文本自动摘要任务的数据增强方法EMDAM(Extract-Merge Data Augmentation Method).EMDAM主要分为抽取和归并两个核心环节.首先,从原有长文本数据集中"抽取"得到若干短句;其次,将抽取出的短句按照定义顺序"归并"为长文本;最终形成满足限定条件的新增长文本数据集.与基线模型相比较,该文在PubMED_Min、CNN/DM_Min、news2016zh_Min数据集上采用增强策略能明显提高基线模型的性能;而在SLCTDSets上使用该文的数据集增强策略,最终的Rouge得分相比未使用增强策略的模型提高了近两个百分点.上述实验结果表明,EMDAM可以在小数据集上进行扩展,为文本摘要研究提供数据支持.
文献关键词:
数据增强;TextRank;Seq2 Seq;生成式摘要
中图分类号:
作者姓名:
皮洲;奚雪峰;崔志明;周国栋
作者机构:
苏州科技大学 电子与信息工程学院,江苏 苏州 215009;苏州市虚拟现实智能交互及应用技术重点实验室,江苏 苏州 215000;苏州大学 计算机科学与技术学院,江苏 苏州 215000
文献出处:
引用格式:
[1]皮洲;奚雪峰;崔志明;周国栋-.一种面向长文本小数据集自动摘要任务的数据增强策略)[J].中文信息学报,2022(09):46-56
A类:
CogLTX,EMDAM,PubMED,news2016zh,SLCTDSets
B类:
长文,小数据,数据增强策略,文本自动摘要,训练数据,加训,要数,数据缺乏,增强方法,Extract,Merge,Data,Augmentation,Method,归并,核心环节,文本数据,短句,限定条件,基线模型,Min,DM,数据集增强,Rouge,百分点,文本摘要,TextRank,Seq2,生成式摘要
AB值:
0.310852
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。