典型文献
基于学术论文全文内容的特定领域算法实体抽取研究
文献摘要:
对学术论文中的算法实体进行研究,能够促进深入了解算法对科学研究的作用,而从全文数据中抽取算法实体是相关研究的基础.学术论文全文内容中算法实体的抽取可以看作一种特殊的命名实体识别.本文通过人工识别的方法,从4641篇论文中抽取出977种算法实体并构建算法实体词列表,以此为基础构建标注语料,训练算法实体自动抽取模型,在剩余语料上抽取得到221种新算法实体,并将自动抽取结果与人工抽取结果进行整合得到全部算法实体1198种.研究结果表明:人工抽取法的结果能够为自动抽取法构建一定数量的标注语料,所构建的算法实体自动抽取模型能够有效地抽取出人工方法中遗漏的新算法实体,同时还能够抽取出已有算法实体的全新表达形式,进一步对人工抽取结果进行扩充和完善.
文献关键词:
学术论文全文内容;算法实体;实体抽取;学术文本挖掘
中图分类号:
作者姓名:
丁睿祎;王玉琢;章成志
作者机构:
南京理工大学经济管理学院,南京 210094
文献出处:
引用格式:
[1]丁睿祎;王玉琢;章成志-.基于学术论文全文内容的特定领域算法实体抽取研究)[J].数字图书馆论坛,2022(03):2-14
A类:
学术论文全文内容,算法实体,学术文本挖掘
B类:
特定领域,实体抽取,进深,命名实体识别,人工识别,实体词,列表,语料,训练算法,自动抽取,取模,新算法,取法,遗漏,表达形式
AB值:
0.153547
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。