典型文献
基于实体识别和信息融合的知识图谱研究——以新冠肺炎疫情为例
文献摘要:
突发公共卫生事件通常会造成巨大的破坏,研究时效性与可理解性在解决这类事件中尤为重要,亟需快速分析研究现状、抽取特定研究信息的方法.科学文献是知识传播的主要载体与重要途径之一,针对文献中专业术语特殊性与歧义性导致的传播受阻问题,该文通过自然语言处理与知识图谱技术,以新冠疫情研究相关文献为例,结合实体识别与信息融合构建知识图谱.该方法首先通过对文献的题目与摘要标注实体以构建数据集用于训练BERT-BiLSTM-CRF模型,该模型可以对文本中的医学实体自动识别并提取.然后根据作者信息的多源交叉验证与领域、机构相似度消除作者姓名歧义并构建一个作者集合.最后根据实体-实体、作者-作者和实体-作者关系,在融合多源信息后增量构建新冠肺炎疫情知识图谱.命名实体识别模型在6类不同医学实体上的平均F1分数达到92.86%,知识图谱包含了34802个医学实体与397163名作者.这项研究表明以上流程可以有效地构建知识图谱,并据此快速找到前沿研究热点和相关领域核心学者,有效促进知识的获取和概念的传播.
文献关键词:
命名实体识别;实体消歧;BERT;知识图谱;新冠肺炎疫情;可视化分析
中图分类号:
作者姓名:
刘华玲;孙毅
作者机构:
上海对外经贸大学 统计与信息学院,上海 201620
文献出处:
引用格式:
[1]刘华玲;孙毅-.基于实体识别和信息融合的知识图谱研究——以新冠肺炎疫情为例)[J].计算机技术与发展,2022(09):107-113
A类:
B类:
信息融合,突发公共卫生事件,可理解性,快速分析,研究信息,科学文献,知识传播,主要载体,中专,专业术语,歧义性,自然语言处理,融合构建,题目,摘要,BERT,BiLSTM,CRF,自动识别,作者信息,交叉验证,作者姓名,多源信息,增量构建,情知,命名实体识别,识别模型,名作,上流,前沿研究,心学,实体消歧
AB值:
0.327294
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。