首站-论文投稿智能助手
典型文献
大数据环境下的投票特征选择算法
文献摘要:
随着数据的爆炸式增长,大数据问题越来越受到关注,然而由于大数据具有维度较高、数据复杂且变化迅速的特性,导致传统的机器学习算法不再适用,故解决大数据特征选择问题迫在眉睫.本文基于投票机制和决策树算法提出了大数据环境下的投票特征选择算法.具体步骤为,随机划分大数据集U为L个子集,将划分后的L个子集发送到L个map节点,在每个map节点上使用决策树算法进行特征选择.在reduce节点,用每个map节点选择出来的特征进行投票,将得票数大于阙值的特征选择出来.将提出的算法在Hadoop和Spark两个开源大数据平台进行了实验,发现两个大数据平台的运行机制有诸多异同.此外,将提出的大数据投票特征选择算法和单变量特征选择算法与基于遗传算法的特征选择算法在5个高维数据集上进行了实验比对.经过对实验结果的分析,发现提出的算法相较于两个相关算法分类精度和执行效率都有更优的表现.证明了提出的算法优于这两个算法,可以有效地解决高维数据的特征选择问题.
文献关键词:
大数据;特征选择;决策树;机器学习;投票机制
作者姓名:
周翔;翟俊海;黄雅婕;申瑞彩;侯璎真
作者机构:
河北大学数学与信息科学学院,河北保定071000;河北大学河北省机器学习与计算智能重点实验室,河北保定071000
引用格式:
[1]周翔;翟俊海;黄雅婕;申瑞彩;侯璎真-.大数据环境下的投票特征选择算法)[J].小型微型计算机系统,2022(05):936-942
A类:
B类:
大数据环境下,特征选择算法,爆炸式,机器学习算法,数据特征,投票机制,决策树算法,具体步骤,子集,发送到,map,reduce,节点选择,得票数,Hadoop,Spark,开源大数据,大数据平台,高维数据,实验比对,算法分类,分类精度,执行效率
AB值:
0.277021
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。