典型文献
Hadoop下并行化实现文本聚类的优化算法
文献摘要:
目前对文本进行聚类分析是数据挖掘领域的一个重要研究方向,传统的K-means聚类算法在处理海量数据时存在初始聚类中心选取随意而导致运行不稳定的缺点.针对该缺点以及单机串行编程对海量数据聚类效率低的问题,提出了一种Hadoop平台下并行化实现文本聚类的优化算法.该算法首先使用向量空间模型对文本进行表示,并对该过程基于MapReduce并行处理,接着采用基于密度和最大最小距离的算法对初始聚类中心的选取进行优化,并将该优化应用到K-means算法,然后基于MapReduce实现对文本的并行聚类.最后通过实验将Hadoop平台下并行化实现文本聚类的优化算法与其他聚类算法进行对比,实验结果表明优化的文本聚类并行算法在聚类效率和聚类质量上均有较大的提高.
文献关键词:
K-means;文本聚类;向量空间模型;MapReduce
中图分类号:
作者姓名:
王辉;潘俊辉;Marius.Petrescu;王浩畅;张强
作者机构:
东北石油大学计算机与信息技术学院 大庆 163318;普罗莱斯蒂石油天然气大学 什蒂 100680
文献出处:
引用格式:
[1]王辉;潘俊辉;Marius.Petrescu;王浩畅;张强-.Hadoop下并行化实现文本聚类的优化算法)[J].计算机与数字工程,2022(12):2611-2615,2664
A类:
B类:
Hadoop,并行化,文本聚类,means,聚类算法,海量数据,初始聚类中心选取,单机,串行,数据聚类,台下,向量空间模型,MapReduce,并行处理,基于密度,最大最小距离,优化应用,并行聚类,并行算法
AB值:
0.302086
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。