确定最佳簇数和Davies-Bouldin指数?

时间:2013-01-17 16:29:58

标签: machine-learning cluster-analysis

我正在尝试评估群集某些数据所需的群集数量是多少。

我知道这可以使用Davies-Bouldin Index(DBI)。

要使用DBI,您必须为任意数量的群集计算它,并且最小化DBI的群集对应于所需的正确群集数。

问题是:

如何使用DBI知道2个集群是否优于1个集群?那么,当我只有1个集群时,如何计算DBI?

1 个答案:

答案 0 :(得分:6)

只考虑所有集群的平均DBI显然不是一个好主意。

当然,增加簇的数量 - k,不会受到惩罚,总是会减少生成的聚类中的DBI数量,如果每个数据点都被认为是DBI,则为DBI的极端情况自己的集群(因为每个数据点都与自己的质心重叠)。

  

如何使用DBI知道2个集群是否优于1个集群?那么,当我只有1个集群时,如何计算DBI?

因此,如果仅使用平均{{1}}作为效果指标,则很难说哪一个更好。

一个好的实用方法是使用Elbow method

  

另一种方法着眼于作为群集数量函数解释的方差百分比:您应该选择多个群集,以便添加另一个群集不会提供更好的数据建模。更确切地说,如果您绘制由集群解释的方差百分比与集群数量的关系图,则第一个集群将添加大量信息(解释大量方差),但在某些时候边际增益会下降,从而给出一个角度。图形。此时选择簇的数量,因此是“肘部标准”。

enter image description here

与选择最佳群集数量相关的其他一些好的替代方案: