典型文献
基于聚类粒化和簇间散度的属性约简算法
文献摘要:
属性约简是粗糙集理论中的研究热点,对连续值数据进行属性约简的算法大多基于优势关系或邻域关系.然而连续值数据集的属性不一定具有优势关系;而基于邻域关系的属性约简算法虽然可以通过邻域半径调整粒化程度,不过由于各属性量纲不同且半径参数为连续值使半径难以统一,导致整个参数粒化过程计算量较大.为解决此问题,提出一种基于聚类粒化的多粒度属性约简策略.首先,利用聚类方法将相似样本归类,并提出了基于聚类的近似集、相对正域及正域约简概念;其次,根据JS(Jensen-Shannon)散度理论对簇间各属性数据分布进行差异性度量,并选择出具有代表性的特征用以区分不同类簇;最后,利用可辨识矩阵设计了属性约简算法.所提算法不要求属性具有序关系,且不同于邻域半径,聚类参数为离散值,调节此参数就能够对数据集形成不同粒化程度的划分.在UCI与Kent Ridge数据集上进行的实验结果表明,该属性约简算法可以直接处理连续值数据,且该算法在较小范围内离散地调节聚类参数便能在保持甚至提高分类精度的前提下去除数据集中的冗余特征.
文献关键词:
连续值数据;粗糙集;属性约简;聚类粒化;Jensen-Shannon散度
中图分类号:
作者姓名:
李艳;范斌;郭劼
作者机构:
河北大学数学与信息科学学院,河北保定071002;河北省机器学习与计算智能重点实验室(河北大学),河北保定071002;北京师范大学珠海校区应用数学与交叉科学研究中心,广东珠海519087
文献出处:
引用格式:
[1]李艳;范斌;郭劼-.基于聚类粒化和簇间散度的属性约简算法)[J].计算机应用,2022(09):2701-2712
A类:
聚类粒化,连续值数据
B类:
散度,属性约简,简算,粗糙集理论,优势关系,邻域半径,整粒,粒化程度,量纲,参数粒,计算量,多粒度,简策,聚类方法,将相,近似集,正域,JS,Jensen,Shannon,属性数据,数据分布,征用,可辨识矩阵,不要,此参数,UCI,Kent,Ridge,小范,分类精度,提下去,除数,冗余特征
AB值:
0.322233
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。