典型文献
基于混合采样和特征选择的改进随机森林算法研究
文献摘要:
随机森林算法是根据Bagging抽样和随机特征子集划分策略,由多棵决策树组成的集成算法.与其他分类算法相比,随机森林算法有更高的分类精度、更低的泛化误差以及训练速度快等特点,因此在数据挖掘领域得到了多方面的应用.然而随机森林算法在分类预测特征维度高且不平衡的数据时,分类性能受到了极大限制.为了更好地处理高维不平衡数据,文中提出了一种基于混合采样和特征选择的改进随机森林算法(Hybrid Samping&Feature Selection Random Forest,HF_RF).该算法首先从数据层面出发,通过SMOTE算法和随机欠采样相结合的方式对高维不平衡数据集进行预处理,同时引入聚类算法对SMOTE算法进行改进,提高对负类样本的处理性能;然后从算法层面出发,通过ReliefF算法对平衡后的高维数据赋予不同的权值,剔除不相关和冗余特征,对高维数据进行维度约简;最后采用加权投票原则进一步提高算法的分类性能.实验结果显示,改进后的算法与原算法相比,在处理高维不平衡数据方面的各评价指标更高,证明HF_RF算法对于高维不平衡数据的分类性能高于传统随机森林算法.
文献关键词:
随机森林;混合采样;特征选择;高维不平衡数据;HF_RF算法
中图分类号:
作者姓名:
汪力纯;刘水生
作者机构:
南京工程学院信息与通信工程学院,江苏南京 211167;江苏省烟草专卖局信息中心,江苏南京 210018
文献出处:
引用格式:
[1]汪力纯;刘水生-.基于混合采样和特征选择的改进随机森林算法研究)[J].南京邮电大学学报(自然科学版),2022(01):81-89
A类:
高维不平衡数据,Samping
B类:
混合采样,特征选择,改进随机森林算法,算法研究,Bagging,随机特征,特征子集,多棵,决策树,集成算法,分类算法,分类精度,泛化误差,训练速度,分类预测,分类性能,Hybrid,Feature,Selection,Random,Forest,HF,RF,数据层,SMOTE,随机欠采样,不平衡数据集,聚类算法,处理性能,ReliefF,高维数据,权值,不相关,冗余特征,维度约简,加权投票
AB值:
0.32943
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。