典型文献
基于BERT的阅读理解式标书文本信息抽取方法
文献摘要:
针对标书文本重要信息的抽取需求,提出一种基于BERT(bidirectional encoder representations from transformers)的阅读理解式标书文本信息抽取方法.该方法将信息抽取任务转换为阅读理解任务,根据标书文本内容,生成对应问题,再抽取标书文本片段作为问题答案.利用BERT预训练模型,得到强健的语言模型,获取更深层次的上下文关联.相比传统的命名实体识别方法,基于阅读理解的信息抽取方法能够很好地同时处理非嵌套实体和嵌套实体的抽取,也能充分利用问题所包含的先验语义信息,区分出具有相似属性的信息.从中国政府采购网下载标书文本数据进行了实验,本文方法总体EM(exact match)值达到92.41%,F1值达到95.03%.实验结果表明本文提出的方法对标书文本的信息抽取是有效的.
文献关键词:
标书文本;阅读理解;信息抽取;BERT(bidirectional encoder representations from transformers)
中图分类号:
作者姓名:
涂飞明;刘茂福;夏旭;张耀峰
作者机构:
武汉科技大学计算机科学与技术学院,湖北武汉430065;智能信息处理与实时工业系统湖北省重点实验室,湖北 武汉430065;湖北经济学院 湖北数据与分析中心,湖北 武汉430205
文献出处:
引用格式:
[1]涂飞明;刘茂福;夏旭;张耀峰-.基于BERT的阅读理解式标书文本信息抽取方法)[J].武汉大学学报(理学版),2022(03):311-316
A类:
标书文本
B类:
BERT,阅读理解,文本信息抽取,重要信息,bidirectional,encoder,representations,from,transformers,任务转换,解任,文本内容,本片,预训练模型,强健,语言模型,上下文,命名实体识别,实体识别方法,非嵌套,套实,利用问题,先验,语义信息,分出,中国政府,政府采购,采购网,网下,下载,文本数据,EM,exact,match
AB值:
0.308684
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。