聚类，应该聚成多少类？

确定聚类数（即K值）是聚类分析中的一个关键问题。科学地确定合适的聚类数可以提高聚类结果的准确性和解释性。以下介绍一些常用的方法和技术，用于确定最佳的聚类数。

① 肘部法则

把握一个核心：类别内差异尽量小，类别间差异尽量大。

核心概念：误差平方和SSE。

该值可用于测量各点与中心点的距离情况（类别内的差异大小），理论上是希望越小越好。该指标可用于辅助判断聚类类别个数，如果发现比如从n个聚类到n+1个类别时SSE值减少幅度明显很大，此时选择n+1个聚类类别较好。

类似于SPSS中的碎石图。
SSE：每个点到其所属簇中心的距离平方和。
随着K值的增加，SSE通常会减小，因为样本会被划分得越来越精细。
肘方法的核心在于寻找SSE下降速度减缓的转折点，即“肘点”，这个点通常被认为是数据集中真实的聚类数量。
它的本质与主成分分析、因子分析中的"碎石图"并无差别，但这种方法主观性较强。

应用范围：最常用于K-means聚类算法。

实现工具：

Python（sklearn库）：暂未尝试。
SPSS：步骤较多，没考虑使用。
R（factoextra包）：代码如下。

② 经验逻辑

从实际应用场景来看，分类数量不宜太多，以3-6类为主流的分类标准，主要考虑到在实际商业应用中分类过多并不能更有效指导商业成功，以有效作为第一性原则。

③ 轮廓系数

轮廓系数结合了内聚度和分离度两种因素，即同时考察了组内相似性和组间差异性。
对于每个样本，计算它与同簇其他样本的平均距离(a)和它与最近簇内所有样本的平均距离(b)。
轮廓系数的值介于[-1, 1]之间，接近1表示样本很好地匹配到了簇，接近-1则表示样本更匹配其他簇。
整体轮廓系数为所有样本轮廓系数的平均值。
对于不同的K值，计算对应的平均轮廓系数，选择使得轮廓系数最大的K值作为最佳聚类数。

应用范围：K-means聚类和系统聚类等均适用。

实现工具：

Python（scikit-learn）：暂未尝试。
MATLAB（silhouette函数）：暂未尝试。
R（cluster-silhouette）：代码如下。

④ 卡林斯基-哈拉巴斯指数 (Calinski-Harabasz Index)

一种评估聚类效果的指标，它是簇间离散度与簇内离散度的比值。该指数的值越大，表示簇间的差异性越大而簇内的差异性越小，聚类效果越好。通过计算不同K值的CH指数并选择最大值对应的K值作为最佳聚类数。

应用范围：通常用于评估基于方差的聚类方法的聚类质量，最常见的是K均值聚类，层次聚类&DBSCAN也会用到。

实现工具：

Python（scikit-learn）：暂未尝试。

MATLAB：暂未尝试。

R（自定义函数）：内置函数似乎无法实现，需要自定义函数calinski_harabasz_index，代码有点复杂，如下。

⑤ 戴维斯-博尔丁指数 (Davies-Bouldin Index)

是一种评估聚类效果的指标，它基于聚类内距离和聚类间距离的比率。DB指数的值越小，表示聚类效果越好。通过计算不同K值的DB指数并选择最小值对应的K值作为最佳聚类数。
戴维斯-博尔丁指数计算简单，易于理解，因此可以广泛应用于各种聚类方法的评估中。

应用范围：K-Means聚类、系统聚类、DBSCAN聚类等

实现工具：

Python（scikit-learn）：暂未尝试。
MATLAB（Statistics and Machine Learning Toolbox）：暂未尝试。
R（自定义函数）：网上说是cluster包有包含计算DBI的函数，但尝试失败，需要自定义函数davies_bouldin_index，代码有点复杂，如下。