典型文献
基于网络嵌入模型的DBLP数据库作者消歧
文献摘要:
DBLP数据库是一个以作者为核心的计算机类英文文献数据库,其中存在着大量的同名作者,为数据库的使用带来了较大的不便.针对DBLP数据库中作者译名的同名问题,以网络嵌入为基础进行作者姓名消歧.提出了以下两种新方法:(1)从文章之间的相似性出发,建立有偏游走序列,在Word2vec模型进行训练后,利用聚类方法对同名作者进行区分.(2)根据文章的属性构建二部图,并基于LINE方法得到每篇文章的特征向量,用机器学习模型区分同名作者.具体来讲,构建多层感知机模型并添加Softmax函数,用以判断输入的两篇文章是否出自同一作者.模型在221位DBLP中同名作者的文献数据集上进行验证,实验结果表明,该方法可以有效地区分DBLP中的同名作者并优于对比方法.
文献关键词:
作者姓名消歧;网络嵌入;随机游走;聚类;词嵌入;词向量;机器学习;神经网络;多层感知机
中图分类号:
作者姓名:
朱晨清;刘至渊;李妍灵;朱临风;刘佳豪;陈伟
作者机构:
苏州大学,江苏苏州215006
文献出处:
引用格式:
[1]朱晨清;刘至渊;李妍灵;朱临风;刘佳豪;陈伟-.基于网络嵌入模型的DBLP数据库作者消歧)[J].电脑编程技巧与维护,2022(01):3-9,44
A类:
B类:
网络嵌入,嵌入模型,DBLP,计算机类,英文文献,文献数据库,同名,名作,译名,作者姓名消歧,Word2vec,聚类方法,二部图,LINE,每篇,篇文章,特征向量,机器学习模型,具体来讲,多层感知机模型,Softmax,两篇,比方,随机游走,词嵌入,词向量
AB值:
0.311261
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。