结合信息论改进的并行深度森林算法|毛伊敏;耿俊豪;陈亮|江西理工大学应用科学学院,江西赣州 341000 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

典型文献

结合信息论改进的并行深度森林算法

文献摘要：

针对并行深度森林算法在处理大数据问题时存在的冗余与不相关特征过多,多粒度扫描不平衡以及并行化效率低等问题,提出了大数据环境下基于信息论改进的并行深度森林算法——IPDFIT(improved parallel deep forest based on information theory).该算法基于信息论设计了一种混合降维策略DRIT(dimension reduction based on information theory),以获得降维后的数据集,有效减少了冗余及不相关特征的数量;提出了一种改进的多粒度扫描策略IMGSS(improved multi-grained scanning strategy)对样本进行扫描,保证每个特征在扫描后,同频率出现在数据子集中,避免了因多粒度扫描不平衡对深度森林模型的影响;结合MapReduce框架,对深度森林每层级联结构中的随机森林模型进行并行化训练,同时提出了一种样本加权策略TSWS(the sample weighting strategy),根据级联中随机森林模型对样本进行评估,选取评估结果较差的样本进入下一层训练,逐步减少了每层级中训练样本的数量,从而提高了算法的并行效率.实验结果表明,该算法在大数据环境下,尤其是针对特征数较多的数据集有着更好的分类效果.

文献关键词：

MapReduce框架;深度森林;DRIT策略;IMGSS策略;TSWS策略

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机软件（TP31） / 程序设计、软件工程（TP311）

[2] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[3] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 自动推理、机器学习（TP181）

作者姓名：

毛伊敏;耿俊豪;陈亮

作者机构：

江西理工大学信息工程学院,江西赣州 341000;江西理工大学应用科学学院,江西赣州 341000

文献出处：

计算机工程与应用

引用格式：

[1]毛伊敏;耿俊豪;陈亮-.结合信息论改进的并行深度森林算法)[J].计算机工程与应用,2022(07):106-115

A类：

IPDFIT,DRIT,IMGSS,TSWS

B类：

信息论,深度森林算法,不相关特征,多粒度扫描,并行化,大数据环境下,improved,parallel,deep,forest,information,theory,混合降维,dimension,reduction,扫描策略,multi,grained,scanning,strategy,子集,深度森林模型,MapReduce,每层,级联结构,随机森林模型,样本加权,sample,weighting,训练样本,并行效率,特征数,分类效果

AB值：

0.316273

相似文献

基于属性树的并行化增量式动态属性约简算法

秦廷桢;丁卫平;鞠恒荣;李铭;黄嘉爽;陈悦鹏;王海鹏-南通大学信息科学技术学院南通 226019

采用N-list结构的混合并行频繁项集挖掘算法

刘卫明;张弛;毛伊敏-江西理工大学信息工程学院,江西赣州 341000

结合信息论和范数的并行随机森林算法

毛伊敏;耿俊豪-江西理工大学信息工程学院,江西赣州 341000

应用于非精确图匹配的改进DF模型

李智杰;伊志林;李昌华;张颉-西安建筑科技大学信息与控制工程学院,西安 710055

基于聚类粒化和簇间散度的属性约简算法