为什么要使用带有CH和SIL的Elbow(或使用L方法)来选择簇数?

时间:2018-10-18 18:30:07

标签: machine-learning cluster-analysis k-means

this paper中,作者使用CH(Caliński–Harabasz索引)和SIL(Silhouette索引)方法来确定簇数。但是,它没有选择最高值,而是在这些索引上应用了L方法,选择了其膝盖(肘部)点。 enter image description here

In this link有很多子问题,其中一个问题是为什么作者使用CH的最大“稳定性”来定义簇数。但是,对于这个解释了该决定的子问题,没有任何答案。

该问题的最大“稳定性”与L方法有关,因为他们选择了变化开始最小的点。

将L方法(或最大稳定性)与CH和SIL索引一起使用的原因可能是什么,我通常希望将它们最大化? (例如,我会理解他们是否会使用平方和之内的数字)

1 个答案:

答案 0 :(得分:1)

聚类分析的一个常见问题是,人们预先设定了必须有一个好的聚类,并且必须通过预处理方法才能实现。和参数。 无法清晰地集群不是一种选择,但应该这样做。特别是如果(必须)进行大量预处理,则很容易失败。将PCA应用于足够复杂的数据,您将得到的是一个 single 高斯样的blob。统计数据中最大的错误是您不会检验整个假设是否都错了……

例如,您可以在此处找到成功的CH和Silhouette图:

https://mathworks.com/help/stats/clustering.evaluation.calinskiharabaszevaluation-class.html

https://mathworks.com/help/stats/clustering.evaluation.silhouetteevaluation-class.html

该图表明,在-行为良好的虹膜数据上,3个群集可能是更好的选择。这就是CH和Silhouette情节的外观,如果您想使用它来说明聚类数,则 if 。如果该图未显示出这样的峰值,则您可能无法使用它-否则所有聚类都不好...

还应注意,这些措施只是启发式的。更好的CH或Silhouette不能为所有目的保证更好的结果。