典型文献
密度峰值优化的球簇划分欠采样不平衡数据分类算法
文献摘要:
在集成算法中嵌入代价敏感和重采样方法是一种有效的不平衡数据分类混合策略.针对现有混合方法中误分代价计算和欠采样过程较少考虑样本的类内与类间分布的问题,提出了一种密度峰值优化的球簇划分欠采样不平衡数据分类算法DPBCPUSBoost.首先,利用密度峰值信息定义多数类样本的抽样权重,将存在"近邻簇"的多数类球簇划分为"易误分区域"和"难误分区域",并提高"易误分区域"内样本的抽样权重;其次,在初次迭代过程中按照抽样权重对多数类样本进行欠采样,之后每轮迭代中按样本分布权重对多数类样本进行欠采样,并把欠采样后的多数类样本与少数类样本组成临时训练集并训练弱分类器;最后,结合样本的密度峰值信息与类别分布为所有样本定义不同的误分代价,并通过代价调整函数增加高误分代价样本的权重.在10个KEEL数据集上的实验结果表明,与现有自适应增强(AdaBoost)、代价敏感自适应增强(AdaCost)、随机欠采样增强(RUSBoost)和代价敏感欠采样自适应增强(USCBoost)等不平衡数据分类算法相比,DPBCPUSBoost在准确率(Accuracy)、F1分数(F1-Score)、几何均值(G-mean)和受试者工作特征(ROC)曲线下的面积(AUC)指标上获得最高性能的数据集数量均多于对比算法.实验结果验证了DPBCPUSBoost中样本误分代价和抽样权重定义的有效性.
文献关键词:
不平衡数据分类;密度峰值;球聚类;代价敏感;欠采样
中图分类号:
作者姓名:
刘学文;王继奎;杨正国;李强;易纪海;李冰;聂飞平
作者机构:
兰州财经大学信息工程学院,兰州730020;甘肃省电子商务技术与应用重点实验室(兰州财经大学),兰州730020;西北工业大学光学影像分析与学习中心,西安710072
文献出处:
引用格式:
[1]刘学文;王继奎;杨正国;李强;易纪海;李冰;聂飞平-.密度峰值优化的球簇划分欠采样不平衡数据分类算法)[J].计算机应用,2022(05):1455-1463
A类:
DPBCPUSBoost,AdaCost,USCBoost,球聚类
B类:
密度峰值,不平衡数据分类,分类算法,集成算法,代价敏感,重采样,采样方法,混合策略,混合方法,代价计算,近邻,样本分布,少数类,训练集,弱分类器,有样,调整函数,KEEL,自适应增强,AdaBoost,随机欠采样,RUSBoost,Accuracy,Score,几何均值,mean,受试者工作特征,对比算法
AB值:
0.237582
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。