典型文献
基于自适应k均值聚类的距离加权欠采样算法
文献摘要:
[目的]消除分类问题中类不平衡数据对分类精度的影响.[方法]首先,使用自适应k均值聚类算法对多数类数据集进行聚类,找到并删除离群点;其次,计算数据与聚类中心加权距离并排序,根据簇密度对多数类数据顺序采样;最后,将采样得到的数据与少数类数据集合并,输入分类算法进行训练.[结果]实验结果表明,在25组不平衡数据集上算法最大AUC平均值达到0.912,相比较于其他方法最少提升了 0.014,平均运行时间仅为1.377 s;应用在两组不平衡大数据集上,算法也有很好的表现.[局限]不适合多分类问题,仅适合解决二分类问题.[结论]算法能够找到最适k值,检测并删除离群点,解决类不平衡问题,提高分类精度.算法速度快,开销小,适合不平衡大数据集的应用.
文献关键词:
类不平衡;聚类;距离加权;欠采样
中图分类号:
作者姓名:
周倩;姚震;孙博
作者机构:
山东农业大学信息科学与工程学院 泰安271018;山东农业大学图书馆 泰安271018
文献出处:
引用格式:
[1]周倩;姚震;孙博-.基于自适应k均值聚类的距离加权欠采样算法)[J].数据分析与知识发现,2022(05):127-136
A类:
B类:
均值聚类,距离加权,欠采样,采样算法,类不平衡数据,分类精度,聚类算法,删除,离群点,算数,聚类中心,加权距离,并排,少数类,数据集合,分类算法,不平衡数据集,上算,其他方法,少提,运行时间,不平衡大数据,多分类问题,二分类问题,不平衡问题,开销
AB值:
0.372456
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。