典型文献
数据集成场景下考虑语义信息的高效实体识别方法
文献摘要:
[目的/意义]针对当前数据集成场景下,实体识别时未能充分提取文本语义信息导致识别效果不佳以及传统分块方法无法满足高效识别的问题,提出一种考虑语义信息的高效实体识别方法,以提升实体识别的效果与效率.[方法/过程]以需要集成的两个数据集A、B为例,首先,分别对数据集A和B中的所有记录进行分词、去停用词等数据预处理操作,然后基于数据集A中的每一个词,建立数据集A的倒排索引;其次,计算数据集B中记录的每个词在数据集A中的重要度,依据重要度大小选择关键词代表该条记录;最后将关键词与索引词进行比对,基于Sentence-BERT模型依次计算关键词所对应的记录与索引词包含的所有记录之间的相似程度.将超过阈值的记录判定为对同一实体的描述记录,如此往复直至比对完数据集B中的所有记录.[结果/结论]实验结果表明,本文提出的考虑语义信息的高效实体识别方法在精确率、召回率、稳定性和响应时间等评价指标的表现上均优于传统的实体识别方法,为解决数据集成中的实体识别问题提供了方法指导.
文献关键词:
实体识别;Sentence-BERT模型;倒排索引;数据集成
中图分类号:
作者姓名:
宗威;林松涛;刘继昶
作者机构:
西安电子科技大学经济与管理学院 西安710126
文献出处:
引用格式:
[1]宗威;林松涛;刘继昶-.数据集成场景下考虑语义信息的高效实体识别方法)[J].图书情报工作,2022(14):128-136
A类:
B类:
数据集成,集成场,语义信息,实体识别方法,分提,文本语义,分块,分词,停用,用词,数据预处理,倒排索引,算数,重要度,该条,Sentence,BERT,相似程度,述记,往复,精确率,召回率,响应时间,方法指导
AB值:
0.300287
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。