典型文献
面向中文命名实体识别任务的数据增强
文献摘要:
在低资源自然语言处理(NLP)任务中,现有的数据不足以训练一个理想的深度学习模型,文本数据增强是提高此类任务训练效果的有效方法.针对中文命名实体识别任务,提出一组基于实例替换的数据增强方法.将训练样本中的命名实体替换为另一个同类实体而保持标签不变,具体算法包括:1)实体之间交叉互换;2)实体内部同义替换;3)中文人名自动生成.分别在PeopleDailyNER和CLUENER2020数据集上应用上述方法,并对BERT+CRF模型进行增强训练.实验结果表明,仅添加与原始数据等量的增强数据,在小样本条件下能使模型F1值在2个数据集上分别提升约10%和7%,随着样本数据的增加,训练效果仍有明显提升.
文献关键词:
深度学习;文本数据增强;命名实体识别;实例交叉;中文人名生成器
中图分类号:
作者姓名:
李健;张克亮;唐亮;夏榕璟;任静静
作者机构:
战略支援部队信息工程大学,河南 洛阳 471003
文献出处:
引用格式:
[1]李健;张克亮;唐亮;夏榕璟;任静静-.面向中文命名实体识别任务的数据增强)[J].计算机与现代化,2022(04):1-6,11
A类:
文本数据增强,PeopleDailyNER,CLUENER2020,BERT+CRF,实例交叉,中文人名生成器
B类:
中文命名实体识别,低资源,自然语言处理,NLP,深度学习模型,训练效果,增强方法,训练样本,互换,同义,自动生成,原始数据,等量,小样本,样本条件
AB值:
0.153484
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。