典型文献
基于MapReduce和MSSA的并行K-means算法
文献摘要:
针对大数据环境下并行K-means算法存在的面对高维数据聚类效果差、数据分区不均匀、初始质心敏感等问题,提出了一种基于MapReduce和MSSA的并行K-means算法MR-MSKCA.首先,提出基于肯德尔相关系数和深度稀疏自动编码器的降维策略(dimensionality reduction strategy based on Kendall correlation coefficient and DSAE,DRKCAE)对高维数据进行特征加权和特征提取,解决了高维数据不相关特征和结构稀疏导致的聚类效果差的问题;其次,提出基于两段映射的广义超平面分区策略(uniform partition strategy based on two-stage map-ping,UPS)对数据集进行划分,获取均匀的数据分区;最后提出非均匀变异麻雀搜索算法(non-uniform mutation sparrow search algorithm,MSSA)用于获取并行K-means的聚类质心,解决了算法初始质心敏感的问题.在UCI数据集上进行的实验显示,MR-MSKCA较MR-KNMF、MR-PGDLSH、MR-GAPKCA的运行时间分别降低了 45.1%、49.1%、59.8%,聚类效果分别提升了 19.2%、22.8%、24%,表明MR-MSKCA对大数据进行聚类时有良好性能,适用于不同场景的大数据聚类分析.
文献关键词:
MapReduce框架;DRKCAE策略;UPS策略;并行聚类;MSSA算法
中图分类号:
作者姓名:
刘卫明;崔瑜;毛伊敏;刘蔚
作者机构:
江西理工大学信息工程学院,江西赣州341000;赣南科技学院电子信息工程学院,江西赣州341000
文献出处:
引用格式:
[1]刘卫明;崔瑜;毛伊敏;刘蔚-.基于MapReduce和MSSA的并行K-means算法)[J].计算机应用研究,2022(11):3244-3251,3257
A类:
MSKCA,DSAE,DRKCAE,KNMF,PGDLSH,GAPKCA
B类:
MapReduce,MSSA,means,大数据环境下,高维数据,数据分区,初始质心,MR,肯德尔,深度稀疏自动编码器,dimensionality,reduction,strategy,Kendall,correlation,coefficient,特征加权,加权和,不相关特征,疏导,两段,超平面,平面分区,分区策略,uniform,partition,two,stage,map,ping,UPS,非均匀变异,麻雀搜索算法,mutation,sparrow,search,algorithm,UCI,运行时间,好性,同场,大数据聚类分析,并行聚类
AB值:
0.364555
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。