典型文献
基于密度峰值聚类算法的自适应加权过采样算法
文献摘要:
不平衡数据是监督学习中的一个挑战性问题.传统的分类器通常偏向多数类,忽略了少数类,而少数类样本往往包含很多重要信息,需要得到更多的关注.针对此问题,提出了一种基于密度峰值聚类算法的过采样技术(An Oversampling Technique based on Density Peak Clustering,DPCOTE).DPCOTE的主要思想是:(1)利用k近邻算法去除多数类和少数类噪声样本;(2)基于密度峰值聚类算法(Density peaks clustering algorithm,DPC)中的2个重要因子,即样本局部密度和样本到局部密度较高的最近邻的距离,来为每个少数类样本分配采样权重;(3)对于DPC算法中涉及到的距离,使用马氏距离来度量,以消除样本特征量纲不一致问题.最后,在12个UCI数据集上进行了对比实验,用不同的指标评价分类结果,结果表明本文提出的算法在处理不平衡分类问题时优于其它过采样方法.
文献关键词:
不平衡数据;k近邻算法;密度峰值聚类算法;马氏距离
中图分类号:
作者姓名:
穆伟蒙;宋燕;窦军
作者机构:
上海理工大学 理学院,上海200093;上海理工大学 光电信息与计算机工程学院,上海200093
文献出处:
引用格式:
[1]穆伟蒙;宋燕;窦军-.基于密度峰值聚类算法的自适应加权过采样算法)[J].智能计算机与应用,2022(06):46-53
A类:
DPCOTE
B类:
基于密度,密度峰值聚类算法,自适应加权,采样算法,不平衡数据,监督学习,挑战性问题,分类器,少数类,重要信息,过采样技术,An,Oversampling,Technique,on,Density,Peak,Clustering,近邻算法,peaks,clustering,algorithm,本局,局部密度,最近邻,配采,采样权重,马氏距离,样本特征,特征量,量纲,不一致问题,UCI,指标评价,不平衡分类,分类问题,采样方法
AB值:
0.380157
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。