典型文献
基于语义聚类的关键词抽取方法
文献摘要:
[目的/意义]关键词抽取的本质是找到能够表达文档核心语义信息的关键词汇,因此使用语义代替词语进行分析更加符合实际需求.本文基于TextRank词图模型,利用语义代替词语进行分析,提出了一种基于语义聚类的关键词抽取方法.[方法/过程]首先,将融合知网(HowNet)义原信息训练的词向量聚类,把词义相近的词语聚集在一起,为各个词语获取相应的语义类别.然后,将词语所属语义类别的窗口共现频率作为词语间的转移概率计算节点得分.最后,将TF-IDF值与节点得分进行加权求和,对关键词抽取结果进行修正.[结果/结论]从整体的关键词抽取结果看,本文提出的关键词抽取方法在抽取效果上有一定提升,相比于TextRank算法在准确率P,召回率R以及F值上分别提升了 12.66%、13.77%、13.16%.[创新/局限]本文的创新性在于使用语义代替词语,从语义层面对相关性网络进行分析.同时,首次引入融合知网义原信息的词向量用于关键词抽取工作.局限性在于抽取方法依赖知网信息,只适用于中文文本抽取.
文献关键词:
抽取;词向量;语义;TextRank;聚类
中图分类号:
作者姓名:
李旭晖;周怡
作者机构:
武汉大学信息管理学院,湖北武汉430072;武汉大学大数据研究院,湖北武汉430072
文献出处:
引用格式:
[1]李旭晖;周怡-.基于语义聚类的关键词抽取方法)[J].情报科学,2022(03):99-108
A类:
B类:
语义聚类,关键词抽取,文档,心语,语义信息,词语,符合实际,TextRank,图模型,HowNet,义原,词向量,词义,语义类别,转移概率,概率计算,计算节点,点得,TF,IDF,加权求和,召回率,语义层面,相关性网络,中文文本
AB值:
0.338362
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。