首站-论文投稿智能助手
典型文献
结合信息论改进的并行深度森林算法
文献摘要:
针对并行深度森林算法在处理大数据问题时存在的冗余与不相关特征过多,多粒度扫描不平衡以及并行化效率低等问题,提出了大数据环境下基于信息论改进的并行深度森林算法——IPDFIT(improved parallel deep forest based on information theory).该算法基于信息论设计了一种混合降维策略DRIT(dimension reduction based on information theory),以获得降维后的数据集,有效减少了冗余及不相关特征的数量;提出了一种改进的多粒度扫描策略IMGSS(improved multi-grained scanning strategy)对样本进行扫描,保证每个特征在扫描后,同频率出现在数据子集中,避免了因多粒度扫描不平衡对深度森林模型的影响;结合MapReduce框架,对深度森林每层级联结构中的随机森林模型进行并行化训练,同时提出了一种样本加权策略TSWS(the sample weighting strategy),根据级联中随机森林模型对样本进行评估,选取评估结果较差的样本进入下一层训练,逐步减少了每层级中训练样本的数量,从而提高了算法的并行效率.实验结果表明,该算法在大数据环境下,尤其是针对特征数较多的数据集有着更好的分类效果.
文献关键词:
MapReduce框架;深度森林;DRIT策略;IMGSS策略;TSWS策略
作者姓名:
毛伊敏;耿俊豪;陈亮
作者机构:
江西理工大学 信息工程学院,江西 赣州 341000;江西理工大学 应用科学学院,江西 赣州 341000
引用格式:
[1]毛伊敏;耿俊豪;陈亮-.结合信息论改进的并行深度森林算法)[J].计算机工程与应用,2022(07):106-115
A类:
IPDFIT,DRIT,IMGSS,TSWS
B类:
信息论,深度森林算法,不相关特征,多粒度扫描,并行化,大数据环境下,improved,parallel,deep,forest,information,theory,混合降维,dimension,reduction,扫描策略,multi,grained,scanning,strategy,子集,深度森林模型,MapReduce,每层,级联结构,随机森林模型,样本加权,sample,weighting,训练样本,并行效率,特征数,分类效果
AB值:
0.316273
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。