典型文献
基于字词混合和GRU的科技文本知识抽取方法
文献摘要:
知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体).现有知识抽取方法分为流水式方法和联合抽取方法.流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢.联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题.基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit,GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果.
文献关键词:
知识抽取;向量映射;GRU;三元组关系;联合抽取方法
中图分类号:
作者姓名:
欧阳苏宇;邵蓥侠;杜军平;李昂
作者机构:
北京邮电大学计算机学院,智能通信软件与多媒体北京重点实验室,北京 100082
文献出处:
引用格式:
[1]欧阳苏宇;邵蓥侠;杜军平;李昂-.基于字词混合和GRU的科技文本知识抽取方法)[J].广西科学,2022(04):634-641
A类:
三元组关系,MBGAB
B类:
字词,GRU,科技文本,知识抽取,非结构化,文本数据,数据抽取,联合抽取方法,命名实体识别,体知,取分,训练速度,较慢,端到端,序列标注,门控,控制单元,Gated,Recurrent,Unit,科技资源,用字,向量映射,切分,分出,出错,有效融入,语义信息,联合抽取模型,自注意力机制,句子,长距离,偏置,重来,模型抽取
AB值:
0.327063
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。