首站-论文投稿智能助手
典型文献
基于BERT的交互式地质实体标注语料库构建方法
文献摘要:
地质实体识别是地质文本信息挖掘和地质知识图谱构建的重要基础,高质量的地质实体语料库是提高地质实体识别效果的重要因素,但目前用于中文地质实体识别的标注语料较少且内容局限于一定领域范围内,而传统的人工标注方法往往耗时耗力且依赖专业知识.因此,该文开展基于BERT的交互式地质实体标注方法研究,通过BERT-BiLSTM-CRF模型自动标注文本中的地质实体并结合人机交互方式校正,同时利用标注的语料扩充原始语料规模和优化地质实体识别模型的性能.实验表明,基于BERT-BiLSTM-CRF模型比CRF、Word2vec-BiL-STM-CRF、Lattice-LSTM-CRF 3种常用模型的识别效果好,在自主构建的初始地质实体语料库的F1值达91.47%,扩大语料规模后提升了1.36%,在保证质量的前提下,减少了人工标注工作,可实现大规模、高质量地质实体标注语料库的构建.
文献关键词:
BERT;地质实体识别;交互式;地质实体语料库
作者姓名:
张春菊;张磊;陈玉冰;刘文聪;薄嘉晨;肖鸿飞
作者机构:
合肥工业大学土木与水利工程学院,安徽 合肥230009;深圳市规划和自然资源局,广东 深圳518034;烽火天地通信科技股份有限公司,江苏 南京210019
引用格式:
[1]张春菊;张磊;陈玉冰;刘文聪;薄嘉晨;肖鸿飞-.基于BERT的交互式地质实体标注语料库构建方法)[J].地理与地理信息科学,2022(04):7-12
A类:
地质实体识别,文本信息挖掘,地质实体语料库
B类:
BERT,交互式,实体标注,语料库构建,构建方法,地质知识,知识图谱构建,标注方法,耗力,BiLSTM,CRF,自动标注,注文,人机交互,交互方式,语料规模,识别模型,Word2vec,Lattice,自主构建,保证质量
AB值:
0.203149
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。