典型文献
K-Means算法最优聚类数量的确定
文献摘要:
K-均值(K-means)聚类算法是学术与工业领域的经典算法.然而,它却具有两个明显缺陷:1)需要预先知道聚类的数量;2)对算法的随机初始化非常敏感.为了解决这两个问题,首先归纳了K-均值算法的基本步骤,并对聚类有效性进行了分析;然后以数据样本点的欧几里德距离为基础,定义了以聚类数量k为自变量的类间质心距离之和以及类内距离之和,由此构造了聚类有效性评价函数;最后根据经验规则,在聚类数量的可能范围内通过求解聚类有效性评价函数的最小值以确定数据集的最优聚类数量.对UCI的3个数据集Iris、Seeds和Wine的仿真结果说明,提出的聚类有效性评价函数不仅能够准确地反映数据的真实聚类结构,还能有效地抑制算法对随机初始化的敏感性,通过对K-均值算法的多次运行,其结果也验证了聚类有效性评价函数的鲁棒性.
文献关键词:
聚类有效性评价函数;K-均值聚类;最优聚类数量;类间质心距离之和;类内距离之和
中图分类号:
作者姓名:
何选森;何帆;徐丽;樊跃平
作者机构:
广州商学院信息技术与工程学院 广州 511363;湖南大学信息科学与工程学院 长沙 410082;北京理工大学管理与经济学院 北京海淀区 100081
文献出处:
引用格式:
[1]何选森;何帆;徐丽;樊跃平-.K-Means算法最优聚类数量的确定)[J].电子科技大学学报,2022(06):904-912
A类:
最优聚类数量,类间质心距离之和,类内距离之和,聚类有效性评价函数
B类:
Means,means,聚类算法,工业领域,先知,初始化,基本步骤,样本点,欧几里德,解聚,最小值,UCI,Iris,Seeds,Wine,聚类结构,均值聚类
AB值:
0.199737
相似文献
机标中图分类号,由域田数据科技根据网络公开资料自动分析生成,仅供学习研究参考。