典型文献
结合柯西核的分类型数据密度峰值聚类算法
文献摘要:
密度峰值聚类算法在处理分类型数据时难以产生较好的聚类效果.针对该现象,详细分析了其产生的原因:距离计算的重叠问题和密度计算的聚集问题.同时为了解决上述问题,提出了一种面向分类型数据的密度峰值聚类算法(Cauchy kernel-based density peaks clustering for categorical data,CDPCD).算法首先指出分类型数据距离度量过程中有序特性(分类型数据属性值之间的顺序关系)鲜有考虑的现状,进而提出一种基于概率分布的加权有序距离度量来缓解重叠问题.通过结合柯西核函数,在共享最近邻密度峰值聚类算法基础上重新评估数据密度值,改进了密度计算和二次分配方式,增强了密度多样性,降低了聚集问题带来的影响.多个真实数据集上的实验结果表明,相较于传统的基于划分和密度的聚类算法,CDPCD都取得了更好的聚类结果.
文献关键词:
分类型数据;有序特性;密度峰值聚类;柯西核函数;数据挖掘
中图分类号:
作者姓名:
盛锦超;杜明晶;李宇蕊;孙嘉睿
作者机构:
江苏师范大学 计算机科学与技术学院,江苏 徐州 221100
文献出处:
引用格式:
[1]盛锦超;杜明晶;李宇蕊;孙嘉睿-.结合柯西核的分类型数据密度峰值聚类算法)[J].计算机工程与应用,2022(18):162-171
A类:
CDPCD,柯西核函数
B类:
分类型数据,数据密度,密度峰值聚类算法,距离计算,密度计,聚集问题,Cauchy,kernel,density,peaks,clustering,categorical,data,距离度量,有序特性,数据属性,属性值,概率分布,解重叠,共享最近邻,近邻密度,重新评估,评估数据,二次分配,分配方式,真实数据
AB值:
0.286268
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。