首站-论文投稿智能助手
典型文献
海量数据下的并行频繁项集挖掘算法
文献摘要:
文章针对频繁项集挖掘中传统串行Eclat算法面对海量数据时挖掘效率不高的问题,提出一种海量数据下的并行频繁项集挖掘算法,即I-SPEclat算法.首先,对Eclat算法存在的缺陷进行改进,引入图的邻接矩阵作为数据的存储结构,避免了大量的交集运算;其次,利用先验性质对候选项集进行预剪枝和后剪枝,减少无用候选项集的数量,节约存储空间;再次,根据项集的前缀对数据进行划分,平衡每个计算节点的工作负载;最后,将改进的Eclat算法在Spark分布式计算框架上实现并行化.实验结果表明,I-SPEclat算法较已有的改进Eclat算法在时间消耗和内存消耗方面均有减少,且面对不同规模的数据集也有着良好的扩展性.
文献关键词:
Eclat算法;Spark框架;邻接矩阵;剪枝优化
作者姓名:
敖孟飞;石鸿雁
作者机构:
沈阳工业大学 理学院,沈阳 110870
文献出处:
引用格式:
[1]敖孟飞;石鸿雁-.海量数据下的并行频繁项集挖掘算法)[J].统计与决策,2022(18):48-53
A类:
SPEclat
B类:
海量数据,行频,频繁项集挖掘,挖掘算法,串行,效率不高,陷进,邻接矩阵,存储结构,交集,集运,先验性,候选项集,无用,存储空间,前缀,计算节点,Spark,分布式计算,计算框架,架上,并行化,不同规模,扩展性,剪枝优化
AB值:
0.345089
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。