典型文献
基于密度峰值聚类和局部稀疏度的过采样算法
文献摘要:
现有的绝大多数过采样方法着重于寻找少数类样本的边界从而增强样本的可分性,忽略了样本的重叠分布与小析取问题,这导致在过采样阶段产生过多的噪声,最终无法实现对少数类样本的正确分类.针对这些问题,提出一种基于密度峰值聚类和局部稀疏度的过采样算法.首先利用改进的密度峰值聚类算法对全部样本自适应地划分出多个簇,根据簇内样本的不平衡比过滤掉不平衡比过高的簇,然后在筛选出的簇中根据少数类样本的分布情况对各簇的过采样个数进行分配,最后通过样本密度计算出各簇少数类样本的局部稀疏度,从中选择出稀疏度较高的少数类样本参与到最终的合成少数过采样.将提出的过采样算法与八种常用的过采样算法分别与三种基分类器相结合,在18个不平衡数据集上进行对比实验.实验结果表明,提出的算法总体上表现更优,能得到更好的分类性能.
文献关键词:
不平衡数据;密度峰值聚类;过采样;局部稀疏度;合成少数过采样
中图分类号:
作者姓名:
吕佳;郭铭
作者机构:
重庆师范大学计算机与信息科学学院,重庆,401331;重庆市数字农业服务工程技术研究中心,重庆,401331;重庆师范大学智慧教育研究院,重庆,401331
文献出处:
引用格式:
[1]吕佳;郭铭-.基于密度峰值聚类和局部稀疏度的过采样算法)[J].南京大学学报(自然科学版),2022(03):483-494
A类:
局部稀疏度
B类:
基于密度,采样算法,采样方法,着重于,少数类,可分性,析取,正确分类,密度峰值聚类算法,分出,不平衡比,比过,滤掉,密度计,本参,合成少数过采样,八种,基分类器,不平衡数据集,分类性能
AB值:
0.203094
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。