首站-论文投稿智能助手
典型文献
基于数据增强的HSE检查纪要命名实体识别
文献摘要:
为解决用深度学习模型对安全检查纪要进行文本挖掘时,面临的数据集规模小、样本数据分布不均衡、命名实体识别(NER)效果差等问题,提出一种新的NER数据增强方法.首先,将数据集中的命名实体分离,并随机替换同类命名实体,避免数据增强技术对命名实体信息的破坏,使命名实体分布更加均匀;然后,通过优化其他部分的噪声数据和比例参数,进一步提高NER的效果;最后,通过自动标注分离后的数据,重新组合,以避免需要手动标注大量数据的弊端.结果表明:该方法可快速解决数据集数据量太小和数据集命名实体分布不均匀等问题;与更简单有效的数据增强(AEDA)方法相比,该方法在健康安全环境(HSE)检查纪要等数据集上取得更好的识别效果,使模型在1倍扩充数据上的综合评价指标从92.83%提升至97.23%;同时,能够得到建筑施工过程中安全隐患在空间上的分布规律和强关联规则.
文献关键词:
数据增强;健康安全环境(HSE);检查纪要;命名实体识别(NER);安全隐患;文本挖掘
作者姓名:
夏占杰;张贝克;高东
作者机构:
北京化工大学信息科学与技术学院,北京100029
引用格式:
[1]夏占杰;张贝克;高东-.基于数据增强的HSE检查纪要命名实体识别)[J].中国安全科学学报,2022(12):53-62
A类:
检查纪要
B类:
HSE,要命,命名实体识别,深度学习模型,安全检查,文本挖掘,数据分布,NER,增强方法,数据增强技术,实体信息,噪声数据,自动标注,重新组合,快速解决,数据量,太小,分布不均匀,AEDA,健康安全环境,充数,综合评价指标,建筑施工过程,强关联规则
AB值:
0.241554
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。