首站-论文投稿智能助手
典型文献
融合后验概率和密度的不平衡数据欠采样方法
文献摘要:
欠采样是当前解决类不平衡问题的主流方法之一.现有研究表明,高效地处理类别重叠能够有效提升过采样方法的性能.然而,目前对欠采样的研究大多认为由于样本选择策略不当而导致的关键样本丢失是影响欠采样方法性能的主要原因,为此,研究者从不同的角度提出了一系列针对性的方法,但鲜有对欠采样中类别重叠的研究.提出一种融合贝叶斯后验概率和分布密度的欠采样方法(BPDDUS)实现重叠区域样本的检测和清洗,并通过样本的分布信息对清洗后的样本进行欠采样.具体来说,该方法通过贝叶斯后验概率对多数类样本中潜在的噪声和重叠样本进行清洗以增强分类决策边界的清晰度.对清洗后的多数类样本,引入全局分布密度和信息熵来度量样本对不平衡数据分类学习的重要程度并对其分配相应的采样权重.按样本权重欠采样并构建集成分类系统,以提升模型的泛化能力.在43个KEEL数据库数据集上进行的数值实验验证了所提的BPDDUS方法的有效性.
文献关键词:
不平衡数据;欠采样;贝叶斯后验概率;全局分布密度;集成分类;信息熵
作者姓名:
任艳平;郑重;江一飞;严远亭;张燕平
作者机构:
安徽大学 计算机科学与技术学院,合肥 230601
引用格式:
[1]任艳平;郑重;江一飞;严远亭;张燕平-.融合后验概率和密度的不平衡数据欠采样方法)[J].计算机工程与应用,2022(23):268-277
A类:
BPDDUS,全局分布密度
B类:
欠采样,采样方法,类不平衡,不平衡问题,主流方法,升过,过采样,样本选择策略,贝叶斯后验概率,重叠区域,分布信息,洗后,具体来说,分类决策,决策边界,清晰度,信息熵,不平衡数据分类,分类学,重要程度,采样权重,样本权重,集成分类,分类系统,泛化能力,KEEL,数值实验
AB值:
0.285889
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。