典型文献
基于共享最近邻和马尔科夫聚类的网络新闻话题检测方法
文献摘要:
[目的]针对现有话题检测方法对数据内在结构信息利用不够充分的问题,提出基于共享最近邻和马尔科夫聚类的网络新闻话题检测方法,实现网络新闻话题的有效检测.[方法]通过综合考虑网络新闻间的共享最近邻个数、秩次等信息刻画新闻间的关联强度、构建共享最近邻图,并解决数据内在结构信息利用不充分的问题;利用降维、最优话题个数的决策、马尔科夫聚类、基于紧密中心度的自动话题描述等技术提升网络新闻话题检测效果.[结果]在两个网络新闻数据集上的实验结果表明,所提方法得到的ARI值更高,分别达到0.86和0.97.参与比较的LDA、K-Means、GMM等话题检测方法在两个网络新闻数据集上的ARI值均分别低于0.75和0.90.[局限]未在其他领域数据集以及多语言数据集上进一步验证.[结论]所提方法可以有效提升网络新闻话题检测性能,为话题检测关键技术研究提供有价值的参考.
文献关键词:
共享最近邻;马尔科夫聚类;网络新闻;话题检测
中图分类号:
作者姓名:
吴振峰;兰天;王猛猛;浦墨;张昱;刘志辉;何彦青
作者机构:
中国科学技术信息研究所 北京100038;中国人民大学经济学院 北京100872
文献出处:
引用格式:
[1]吴振峰;兰天;王猛猛;浦墨;张昱;刘志辉;何彦青-.基于共享最近邻和马尔科夫聚类的网络新闻话题检测方法)[J].数据分析与知识发现,2022(10):103-113
A类:
马尔科夫聚类
B类:
共享最近邻,网络新闻,新闻话题,话题检测,内在结构,结构信息,信息利用,有效检测,近邻图,中心度,技术提升,检测效果,新闻数据,ARI,LDA,Means,GMM,未在,多语言,语言数据,检测性能,关键技术研究
AB值:
0.209786
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。