首站-论文投稿智能助手
典型文献
一种基于最优集成随机森林的小样本数据特征提取方法
文献摘要:
高维小样本数据作为数据挖掘的难点,用传统的随机森林算法进行特征选择时极易出现分类结果过拟合而导致的特征重要度排序稳定性差、精度低等问题.针对随机森林在小样本数据降维过程中出现的难点,提出了一种基于小样本数据特征提取算法OTE-GWRFFS.基于生成对抗网络GAN进行样本扩充,避免传统随机森林在小样本分类过程中的过拟合现象;在数据扩充的基础上采用基于权重的最优树集合算法,减小生成数据分布误差对特征提取精度的影响,提升决策树集合的整体稳定性;采用单棵决策树的权重与特征重要性度量值加权平均得到特征重要性排序,从而解决了小样本数据特征选择过程中精度低稳定性差的问题.通过UCI数据集将所提算法与传统随机森林以及基于权重的随机森林算法进行实验对比,OTE-GWRFFS算法在处理高维小样本数据时具有更高的稳定性和精度.
文献关键词:
高维小样本数据;最优树集合;随机森林;特征提取;数据扩充
作者姓名:
张维;张浩晨
作者机构:
西北工业大学 机电学院,陕西 西安 710072
引用格式:
[1]张维;张浩晨-.一种基于最优集成随机森林的小样本数据特征提取方法)[J].西北工业大学学报,2022(06):1261-1268
A类:
GWRFFS,最优树集合
B类:
数据特征,高维小样本数据,随机森林算法,特征选择,择时,过拟合,特征重要度,数据降维,特征提取算法,OTE,生成对抗网络,GAN,样本扩充,分类过程,数据扩充,合算,小生,数据分布,决策树,整体稳定性,特征重要性,重要性度量,加权平均,重要性排序,UCI,实验对比
AB值:
0.23003
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。