典型文献
基于数据增强和弱监督对抗训练的中文事件检测
文献摘要:
当前的事件检测模型严重依赖于人工标注的数据,在标注数据规模有限的情况下,事件检测任务中基于完全监督方法的深度学习模型经常会出现过拟合的问题,而基于弱监督学习的使用自动标注数据代替耗时的人工标注数据的方法又常常依赖于复杂的预定义规则.为了解决上述问题,就中文事件检测任务提出了一种基于BERT的混合文本对抗训练(BMAD)方法.所提方法基于数据增强和对抗学习设定了弱监督学习场景,并采用跨度抽取模型来完成事件检测任务.首先,为改善数据不足的问题,采用回译、Mix-Text等数据增强方法来增强数据并为事件检测任务创建弱监督学习场景;然后,使用一种对抗训练机制进行噪声学习,力求最大限度地生成近似真实样本的生成样本,并最终提高整个模型的鲁棒性.在广泛使用的真实数据集自动文档抽取(ACE)2005上进行实验,结果表明相较于NPN、TLNN、HCBNN等算法,所提方法在F1分数上获取了至少0.84个百分点的提升.
文献关键词:
信息抽取;中文事件检测;数据增强;弱监督学习;对抗训练
中图分类号:
作者姓名:
罗萍;丁玲;杨雪;向阳
作者机构:
同济大学电子与信息工程学院,上海 201804;软通动力信息技术(集团)有限公司,河北廊坊 065000
文献出处:
引用格式:
[1]罗萍;丁玲;杨雪;向阳-.基于数据增强和弱监督对抗训练的中文事件检测)[J].计算机应用,2022(10):2990-2995
A类:
BMAD,TLNN,HCBNN
B类:
数据增强,对抗训练,中文事件检测,检测模型,监督方法,深度学习模型,过拟合,弱监督学习,自动标注,预定,BERT,对抗学习,学习场景,取模,成事,回译,Mix,Text,增强方法,训练机制,声学,实样,真实数据,文档,ACE,NPN,百分点,信息抽取
AB值:
0.27753
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。