首站-论文投稿智能助手
典型文献
基于TFIDF+LSA算法的新闻文本聚类与可视化
文献摘要:
近几年来,文本聚类技术作为机器学习领域一种无监督学习的方法,也越来越成为数据挖掘领域备受关注的技术之一.将小规模的文本数据聚为几类,在一定程度上说是一件比较容易实现的工作.可是,当面对大量高维的中文文本数据时,由于在这种情况下对文本聚类,面对的将是高维和稀疏的数据,在保证聚类质量的情况下,提高聚类的速度和可视化效果也成为聚类研究的课题之一.该文提出一种结合词频反文档频率算法(term frequency,inverse document frequency,TFIDF)和潜在语义分析算法(latent semantic analysis,LSA)相结合的方法,来提高kmeans中文文本聚类的速度和可视化效果.将从网页上采集到的11456条新闻作为实验对象,通过基于TFIDF聚类和基于TFIDF+LSA聚类进行实验对比,根据聚类指标轮廓系数(Silhouette coefficient,SC)、卡林斯基-原巴斯指数(Calinski-Harabasz index,CHI)和戴维斯-堡丁指数(Davies-Bouldin index,DBI)的值表明,该方法不仅能保证文本聚类的质量,还能大大提高文本聚类的速度和可视化效果.
文献关键词:
词频反文档频率;潜在语义分析;文本聚类速度;文本聚类可视化;kmeans
作者姓名:
郝秀慧;方贤进;杨高明
作者机构:
安徽理工大学 计算机科学与工程学院,安徽 淮南 232001
引用格式:
[1]郝秀慧;方贤进;杨高明-.基于TFIDF+LSA算法的新闻文本聚类与可视化)[J].计算机技术与发展,2022(07):34-38,45
A类:
TFIDF+LSA,词频反文档频率,文本聚类速度,文本聚类可视化
B类:
新闻文本,近几年来,聚类技术,学习领域,无监督学习,小规模,文本数据,几类,可是,当面,高维,中文文本,聚类研究,频率算法,term,frequency,inverse,document,潜在语义分析,latent,semantic,analysis,kmeans,网页,实验对象,实验对比,类指,轮廓系数,Silhouette,coefficient,SC,林斯基,巴斯,Calinski,Harabasz,CHI,戴维斯,Davies,Bouldin,DBI
AB值:
0.405043
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。