典型文献
融合信息增益比和遗传算法的混合式特征选择算法
文献摘要:
随着信息技术以及电子病历和病案在医疗机构的应用,医院数据库产生了大量的医学数据.决策树因其分类精度高、计算速度快,且分类规则简单、易于理解,而被广泛应用于医学数据分析中.然而,医学数据固有的高维特征空间和高度特征冗余等特点,使得传统的决策树在医学数据上的分类精度并不理想.基于此,提出了一种融合信息增益比排序分组和分组进化遗传算法的混合式特征选择算法(GRRGA).该算法首先使用基于信息增益比的过滤式算法对原始特征集合进行排序,然后按照密度等分的原理对排序后的特征进行分组,最后再使用分组进化遗传算法对排序后的特征组进行遗传搜索.其中,分组进化遗传算法共分为种群内和种群外两种进化方法,并使用两种不同的适应度函数来控制进化过程.此外,针对决策树的不稳定性,提出使用Bagging方法对C4.5算法进行集成学习.实验结果显示,GRRGA算法在6组UCI数据集上的Precision指标均值为87.13%,显著优于传统的特征选择算法.此外,与另外两种分类算法对比可知,GRRGA算法的特征筛选性能依然是最优的.更重要的是,Bagging方法在Arrhythmia和Cancer医学数据集上的Precision指标分别为84.7%和78.7%,充分证明了该算法的实际应用意义.
文献关键词:
医学数据;决策树;特征选择;遗传算法;信息增益比
中图分类号:
作者姓名:
许召召;申德荣;聂铁铮;寇月
作者机构:
东北大学计算机科学与工程学院,辽宁沈阳110819
文献出处:
引用格式:
[1]许召召;申德荣;聂铁铮;寇月-.融合信息增益比和遗传算法的混合式特征选择算法)[J].软件学报,2022(03):1128-1140
A类:
GRRGA
B类:
融合信息,信息增益比,混合式特征选择,特征选择算法,电子病历,病案,医院数据库,决策树,分类精度,计算速度,分类规则,高维特征空间,高度特征,进化遗传算法,特征集合,法共,适应度函数,对决,出使,Bagging,C4,集成学习,UCI,Precision,分类算法,算法对比,特征筛选,Arrhythmia,Cancer,医学数据集,充分证明,应用意义
AB值:
0.305901
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。