典型文献
基于改进的半监督聚类的不平衡分类算法
文献摘要:
不平衡分类的相关算法是机器学习领域的研究热点之一,其中的过采样通过重复抽取或者人工合成来增加少数类样本,以实现数据集的再平衡.然而当前的过采样方法大部分是基于原有的样本分布进行的,难以揭示更多的数据集分布特征.为了解决以上问题,首先,提出一种改进的半监督聚类算法来挖掘数据的分布特征;其次,基于半监督聚类的结果,在属于少数类的簇中选择置信度高的无标签数据(伪标签样本)加入原始训练集,这样做除了实现数据集的再平衡外,还可以利用半监督聚类获得的分布特征来辅助不平衡分类;最后,融合半监督聚类和分类的结果来预测最终的类别标签,从而进一步提高算法的不平衡分类性能.选择G-mean和曲线下面积(AUC)作为评价指标,将所提算法与TU、CDSMOTE等7个基于过采样或欠采样的不平衡分类算法在10个公开数据集上进行了对比分析.实验结果表明,与TU、CDSMOTE相比,所提算法在AUC指标上分别平均提高了6.7%和3.9%,在G-mean指标上分别平均提高了7.6%和2.1%,且在两个评价指标上相较于所有对比算法都取得了最高的平均结果.可见所提算法能够有效地提高不平衡分类性能.
文献关键词:
不平衡分类;半监督聚类;伪标签样本;过采样;融合
中图分类号:
作者姓名:
陆宇;赵凌云;白斌雯;姜震
作者机构:
江苏大学计算机科学与通信工程学院,江苏镇江 212013
文献出处:
引用格式:
[1]陆宇;赵凌云;白斌雯;姜震-.基于改进的半监督聚类的不平衡分类算法)[J].计算机应用,2022(12):3750-3755
A类:
伪标签样本,CDSMOTE
B类:
半监督聚类,不平衡分类,分类算法,学习领域,过采样,人工合成,少数类,再平衡,采样方法,样本分布,聚类算法,置信度,无标签数据,入原,训练集,融合半监督,分类性能,mean,TU,欠采样,公开数据集,对比算法
AB值:
0.222917
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。