一种基于样本空间的类别不平衡数据采样方法|张永清;卢荣钊;乔少杰;韩楠;GUTIERREZ Louis Alberto;周激流|电子科技大学计算机科学与工程学院成都611731中国 - 期刊导航|首站-论文投稿智能助手|论文发表|论文智能投稿|期刊自助发表推荐|杂志社快速发表|查同导刊-域田数据官方网站

首站-论文投稿智能助手

首页

期刊导航

职称导航

中图分类号

典型文献

一种基于样本空间的类别不平衡数据采样方法

文献摘要：

不平衡数据是机器学习中普遍存在的问题并得到广泛研究,即少数类的样本数量远远小于多数类样本的数量.传统基于最小化错误率方法的不足在于:分类结果会倾向于多数类,造成少数类的精度降低,通常还存在时间复杂度较高的问题.为解决上述问题,提出一种基于样本空间分布的数据采样方法,伪负样本采样方法.伪负样本指被标记为负样本(多数类)但与正样本(少数类)有很大相关性的样本.算法主要包括3个关键步骤:1)计算正样本的空间分布中心并得到每个正样本到空间中心的平均距离;2)以同样的距离计算方法计算每个负样本到空间分布中心的距离,并与平均距离进行比较,将其距离小于平均距离的负样本标记为伪负样本;3)将伪负样本从负样本集中删除并加入到正样本集中.算法的优势在于不改变原始数据集的数量,因此不会引入噪声样本或导致潜在信息丢失;在不降低整体分类精度的情况下,提高少数类的精确度.此外,其时间复杂度较低.经过13个数据进行多角度实验,表明伪负样本采样方法具有较高的预测准确性.

文献关键词：

不平衡数据;样本空间;机器学习;采样方法;空间中心

中图分类号：

[1] 自动化技术、计算机技术（TP） / 计算技术、计算机技术（TP3） / 计算机的应用（TP39） / 信息处理(信息加工)（TP391）

[2] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18） / 自动推理、机器学习（TP181）

[3] 自动化技术、计算机技术（TP） / 自动化基础理论（TP1） / 人工智能理论（TP18）

作者姓名：

张永清;卢荣钊;乔少杰;韩楠;GUTIERREZ Louis Alberto;周激流

作者机构：

成都信息工程大学计算机学院成都610225中国;电子科技大学计算机科学与工程学院成都611731中国;成都信息工程大学软件工程学院成都610225中国;成都信息工程大学管理学院成都610103中国;伦斯勒理工学院计算机科学系纽约12180美国

文献出处：

自动化学报

引用格式：

[1]张永清;卢荣钊;乔少杰;韩楠;GUTIERREZ Louis Alberto;周激流-.一种基于样本空间的类别不平衡数据采样方法)[J].自动化学报,2022(10):2549-2563

A类：

B类：

样本空间,类别不平衡数据,数据采样,采样方法,少数类,样本数量,化错,错误率,时间复杂度,记为,关键步骤,分布中心,空间中心,距离计算,样本集,删除,原始数据,信息丢失,不降,整体分类,分类精度,预测准确性

AB值：

0.301476

相似文献

纳米工艺下大规模线网的快速随机行走电容提取技术

宋明烨;喻文健-清华大学计算机科学与技术系北京 100084;清华大学北京信息科学与技术国家研究中心北京 100084

面向知识超图链接预测的生成对抗负采样方法

郭正山;左劼;段磊;李仁昊;何承鑫;肖英劼;王培妍-四川大学计算机学院成都 610065

融合语义解析的知识图谱表示方法

胡旭阳;王治政;孙媛媛;徐博;林鸿飞-大连理工大学计算机科学与技术学院,辽宁大连 116024

自适应插值与特征压缩的小样本数据分类研究

孙永明;杨进-上海理工大学理学院,上海 200093

并行注意力机制在图像语义分割中的应用

张汉;张德祥;陈鹏;章军;王兵-安徽大学电气工程与自动化学院,合肥 230601;安徽大学农业生态大数据分析与应用技术国家地方联合工程研究中心,互联网学院,合肥 230601;安徽工业大学电气与信息工程学院,安徽马鞍山 201804

对不平衡目标域的多源在线迁移学习

周晶雨;王士同-江南大学人工智能与计算机学院,江苏无锡 214122

基于双向LSTM卷积网络与注意力机制的自动睡眠分期模型

李倩玉;王蓓;金晶;张涛;王行愚-华东理工大学信息科学与工程学院, 上海 200237;清华大学自动化系, 北京 100086

基于生成对抗网络和元路径的异质网络表示学习

蒋宗礼;樊珂;张津丽-北京工业大学信息学部北京 100124

结合注意力机制与几何信息的特征融合框架

董奇达;王喆;吴松洋-华东理工大学信息科学与工程学院上海200237;公安部第三研究所上海201204

利用维基百科点击流的概念依赖关系识别方法

胡成;陈昊;肖奎-湖北大学计算机与信息工程学院,武汉430062

基于AdaBoost集成加权宽度学习系统的不平衡数据分类

王萌铎;续欣莹;阎高伟;史丽娟;郭磊-太原理工大学电气与动力工程学院,太原 030024

基于多任务学习的电子病历实体识别方法

于鹏;陈钰枫;徐金安;张玉洁-北京交通大学计算机与信息技术学院,北京 100044

基于改进混合采样和XGBoost算法的信用卡欺诈检测方法

孙丹;施炜利;饶兰香;孟莎莎;郭晓明;李逸伦-江西省科技基础条件平台中心,江西南昌 330003;中国广电江西网络有限公司,江西南昌 330006

基于边界增强和去噪的自适应双权重过采样方法研究

高子寒;宋燕-上海理工大学光电信息与计算机工程学院,上海200093

基于密度峰值聚类算法的自适应加权过采样算法

穆伟蒙;宋燕;窦军-上海理工大学理学院,上海200093;上海理工大学光电信息与计算机工程学院,上海200093

基于改进SMOTE的制造过程不平衡数据分类策略

黎旭;陈家兑;吴永明;宗文泽-贵州大学现代制造技术教育部重点实验室,贵阳 550025;贵州大学机械工程学院,贵阳 550025;贵州大学公共大数据国家重点实验室,贵阳 550025

结合缠论和深度学习的股价拐点预测研究

田红丽;杨莹莹;闫会强-河北工业大学人工智能与数据科学学院,天津 300401;河北工业大学经济管理学院,天津 300401

融合拟单层覆盖粗集的集值数据平衡方法研究

吴正江;杨天;郑爱玲;梅秋雨;张亚宁-河南理工大学计算机科学与技术学院,河南焦作 454003

基于密度峰值聚类和径向基函数的过采样算法

陆妙芳;杨有龙-西安电子科技大学数学与统计学院,西安 710126

融合后验概率和密度的不平衡数据欠采样方法

任艳平;郑重;江一飞;严远亭;张燕平-安徽大学计算机科学与技术学院,合肥 230601

机标中图分类号，由域田数据科技根据网络公开资料自动分析生成，仅供学习研究参考。