典型文献
基于MapReduce的高维数据频繁项集挖掘
文献摘要:
传统的数据挖掘算法在面向大规模高维数据的挖掘过程中,存在数据特征捕捉准确率低、节点负载不均衡、数据交互频繁、频繁项集紧凑化程度低等问题.提出基于MapReduce的并行挖掘算法PARDG-MR,结合高维数据特征,设计基于维度粒化算法和负载均衡算法的DGPL策略,并对数据进行预处理,以解决高维复杂数据特征属性捕捉困难及数据划分中节点负载不均衡的问题.通过构建基于PJPFP-Tree树的频繁项集并行挖掘策略PARM,实现频繁项集的并行化分组过程,从而提高数据处理的运行效率.在此基础上,提出基于剪枝前缀推论的整合节点剪枝算法PJPFP,提高频繁项集挖掘过程中的剪枝效率,增强频繁项集的紧凑化程度.在Webdocs、NDC、Gisette 3个数据集上的实验结果表明,相比PFP-growth、PWARM、MRPrePost算法,该算法的运行时间平均缩短了约20%,能够有效提高数据挖掘效率且降低内存空间.
文献关键词:
高维数据;频繁项集;维度粒化;并行化;候选剪枝策略
中图分类号:
作者姓名:
赵欣灿;朱云;毛伊敏
作者机构:
江西理工大学 理学院,江西 赣州 341000;江西理工大学 信息工程学院,江西 赣州 341000
文献出处:
引用格式:
[1]赵欣灿;朱云;毛伊敏-.基于MapReduce的高维数据频繁项集挖掘)[J].计算机工程,2022(03):81-89
A类:
PARDG,维度粒化,DGPL,PJPFP,PARM,Webdocs,Gisette,PWARM,MRPrePost,候选剪枝策略
B类:
MapReduce,高维数据,频繁项集挖掘,数据挖掘算法,数据特征,数据交互,紧凑化,负载均衡,均衡算法,复杂数据,特征属性,数据划分,中节点,Tree,挖掘策略,并行化,组过,前缀,推论,剪枝算法,NDC,growth,运行时间,时间平均,内存空间
AB值:
0.257223
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。