典型文献
一种基于样本空间的类别不平衡数据采样方法
文献摘要:
不平衡数据是机器学习中普遍存在的问题并得到广泛研究,即少数类的样本数量远远小于多数类样本的数量.传统基于最小化错误率方法的不足在于:分类结果会倾向于多数类,造成少数类的精度降低,通常还存在时间复杂度较高的问题.为解决上述问题,提出一种基于样本空间分布的数据采样方法,伪负样本采样方法.伪负样本指被标记为负样本(多数类)但与正样本(少数类)有很大相关性的样本.算法主要包括3个关键步骤:1)计算正样本的空间分布中心并得到每个正样本到空间中心的平均距离;2)以同样的距离计算方法计算每个负样本到空间分布中心的距离,并与平均距离进行比较,将其距离小于平均距离的负样本标记为伪负样本;3)将伪负样本从负样本集中删除并加入到正样本集中.算法的优势在于不改变原始数据集的数量,因此不会引入噪声样本或导致潜在信息丢失;在不降低整体分类精度的情况下,提高少数类的精确度.此外,其时间复杂度较低.经过13个数据进行多角度实验,表明伪负样本采样方法具有较高的预测准确性.
文献关键词:
不平衡数据;样本空间;机器学习;采样方法;空间中心
中图分类号:
作者姓名:
张永清;卢荣钊;乔少杰;韩楠;GUTIERREZ Louis Alberto;周激流
作者机构:
成都信息工程大学计算机学院 成都610225中国;电子科技大学计算机科学与工程学院 成都611731中国;成都信息工程大学软件工程学院 成都610225中国;成都信息工程大学管理学院 成都610103中国;伦斯勒理工学院计算机科学系 纽约12180美国
文献出处:
引用格式:
[1]张永清;卢荣钊;乔少杰;韩楠;GUTIERREZ Louis Alberto;周激流-.一种基于样本空间的类别不平衡数据采样方法)[J].自动化学报,2022(10):2549-2563
A类:
B类:
样本空间,类别不平衡数据,数据采样,采样方法,少数类,样本数量,化错,错误率,时间复杂度,记为,关键步骤,分布中心,空间中心,距离计算,样本集,删除,原始数据,信息丢失,不降,整体分类,分类精度,预测准确性
AB值:
0.301476
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。