首站-论文投稿智能助手
典型文献
Spark下基于PCA和分层选择的随机森林算法
文献摘要:
针对大数据背景下随机森林算法中存在协方差矩阵规模较大、子空间特征信息覆盖不足和节点通信开销大的问题,提出了基于PCA和子空间分层选择的并行随机森林算法PLA-PRF(PCA and subspace layer sampling on parallel random forest algorithm).对初始特征集,提出了基于PCA的矩阵分解策略(matrix factorization strategy,MFS),压缩原始特征集,提取主成分特征,解决特征变换过程中协方差矩阵规模较大的问题;基于主成分特征,提出基于误差约束的分层子空间构造算法(error-constrained hierarchical subspace construction algorithm,EHSCA),分层选取信息素特征,构建特征子空间,解决子空间特征信息覆盖不足的问题;在Spark环境下并行化训练决策树的过程中,设计了一种数据复用策略(data reuse strategy,DRS),通过垂直划分RDD数据并结合索引表,实现特征复用,解决了节点通信开销大的问题.实验结果表明PLA-PRF算法分类效果更佳,并行化效率更高.
文献关键词:
随机森林;Spark;主成分分析(PCA);分层抽样;误差约束;数据划分;数据复用
作者姓名:
雷晨;毛伊敏
作者机构:
江西理工大学 信息工程学院,江西 赣州 341000
引用格式:
[1]雷晨;毛伊敏-.Spark下基于PCA和分层选择的随机森林算法)[J].计算机工程与应用,2022(06):118-127
A类:
EHSCA
B类:
Spark,分层选择,随机森林算法,大数据背景下,协方差矩阵,规模较,空间特征,特征信息,通信开销,空间分层,PLA,PRF,subspace,layer,sampling,parallel,random,forest,algorithm,征集,矩阵分解,matrix,factorization,strategy,MFS,成分特征,特征变换,换过,误差约束,空间构造,构造算法,error,constrained,hierarchical,construction,取信,信息素,特征子空间,并行化,决策树,数据复用,data,reuse,DRS,RDD,索引表,算法分类,分类效果,分层抽样,数据划分
AB值:
0.468034
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。