典型文献
大规模主题词自动标引方法
文献摘要:
现有的主题标引方法一般只能抽取文本中出现的词汇,无法从几万或数十万主题词中选择语义关联强且未出现的词汇;基于机器学习的多标签分类算法则需要每一个标签下有训练数据,限制了它们在主题标引上的应用.面向大规模主题词在海量文献上的标引需求,提出一个基于分布式词向量的混合型自动标引方法,利用大规模语料训练的词向量生成同维度的主题词表示向量和文本表示向量,实现主题词与文本语义相似度的计算.基于大规模语料构建主题词与普通词的映射表,使文本向量只和少量的语义强相关主题词向量比较,大大减少了计算量,提高了标引效率.开发的自动标引工具对近亿篇文献进行了主题标引,达到了较高的速度.与结巴关键词的实验对比结果显示,本文方法抽取的主题词与作者关键词重合度较低,且在去除结巴关键词中的非主题词后,取得了比结巴关键词更高的标引准确率;与人工标引的实验对比结果显示,随着人工标引词数量的增加,本文方法的效果、结果与人工标引结果的一致性在不断增加.
文献关键词:
主题标引;分布式词向量;多标签文本分类;关键词抽取;语义标签
中图分类号:
作者姓名:
韩红旗;桂婕;张运良;翁梦娟;薛陕;悦林东
作者机构:
中国科学技术信息研究所,北京 100038;富媒体数字出版内容组织与知识服务重点实验室(国家新闻出版署),北京 100038
文献出处:
引用格式:
[1]韩红旗;桂婕;张运良;翁梦娟;薛陕;悦林东-.大规模主题词自动标引方法)[J].情报学报,2022(05):475-485
A类:
作者关键词,标引词
B类:
自动标引,主题标引,几万,数十万,语义关联,基于机器学习,多标签分类,分类算法,签下,训练数据,引上,献上,分布式词向量,混合型,语料,主题词表,文本表示,文本语义,语义相似度,射表,文本向量,大大减少,计算量,结巴,实验对比,重合度,词数,多标签文本分类,关键词抽取,语义标签
AB值:
0.293669
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。