典型文献
基于RBBLC模型的中文事件抽取方法
文献摘要:
在公检法、纪检监察等领域的大数据分析中,结构化数据和非结构化文本数据往往成为主要数据源.基于这类数据进行业务分析时,需要重点提取数据背后的隐型关联,而事件抽取是对此类文本数据进行关联分析的核心基础.过往事件抽取任务将事件触发词识别和事件要素识别分开进行,由事件触发词识别得到的事件触发词及事件类型进行后续的事件要素识别,存在误差传播的问题,且以往的基于表示的方法构建的词向量,对于句子级特征的提取能力存在缺失.提出了一种RBBLC联合抽取模型,以序列标注的方式同时完成事件识别和事件要素识别.所提RBBLC模型基于RoBERTa构建包含更丰富上下文信息的词向量,继而应用BiLSTM-CNN的网络结构捕捉语句内部关联信息进行事件触发词及论元标签预测和事件类型预测.在CEC语料库上进行了抽取实验和归纳分析,本方法的F1值、准确率、召回率三项指标较基线方法分别提高了16%、28%和24%,有效提升了事件抽取任务性能.
文献关键词:
事件抽取;RoBERTa;双向LSTM;序列标注;文本大数据分析
中图分类号:
作者姓名:
杨登辉;刘靖
作者机构:
内蒙古大学计算机学院,内蒙古 呼和浩特010021
文献出处:
引用格式:
[1]杨登辉;刘靖-.基于RBBLC模型的中文事件抽取方法)[J].南京师范大学学报(工程技术版),2022(03):38-44,82
A类:
RBBLC,事件要素识别
B类:
中文事件抽取,公检法,纪检监察,结构化数据,非结构化,结构化文本,文本数据,要数,数据源,业务分析,提取数据,过往,往事,事件触发,触发词识别,开进,事件类型,误差传播,词向量,句子级特征,特征的提取,联合抽取模型,序列标注,成事,事件识别,RoBERTa,上下文信息,BiLSTM,语句,联信,行事,论元,类型预测,CEC,语料库,归纳分析,召回率,了事,文本大数据分析
AB值:
0.336328
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。