应用错误收集

只考虑所有集群的平均DBI显然不是一个好主意。

当然，增加簇的数量 - k，不会受到惩罚，总是会减少生成的聚类中的DBI数量，如果每个数据点都被认为是DBI，则为DBI的极端情况自己的集群（因为每个数据点都与自己的质心重叠）。

如何使用DBI知道2个集群是否优于1个集群？那么，当我只有1个集群时，如何计算DBI？

因此，如果仅使用平均{{1}}作为效果指标，则很难说哪一个更好。

一个好的实用方法是使用Elbow method。

另一种方法着眼于作为群集数量函数解释的方差百分比：您应该选择多个群集，以便添加另一个群集不会提供更好的数据建模。更确切地说，如果您绘制由集群解释的方差百分比与集群数量的关系图，则第一个集群将添加大量信息（解释大量方差），但在某些时候边际增益会下降，从而给出一个角度。图形。此时选择簇的数量，因此是“肘部标准”。

enter image description here

与选择最佳群集数量相关的其他一些好的替代方案：

确定最佳簇数和Davies-Bouldin指数？

1 个答案: