我正在尝试评估群集某些数据所需的群集数量是多少。
我知道这可以使用Davies-Bouldin Index(DBI)。
要使用DBI,您必须为任意数量的群集计算它,并且最小化DBI的群集对应于所需的正确群集数。
问题是:
如何使用DBI知道2个集群是否优于1个集群?那么,当我只有1个集群时,如何计算DBI?
答案 0 :(得分:6)
只考虑所有集群的平均DBI
显然不是一个好主意。
当然,增加簇的数量 - k
,不会受到惩罚,总是会减少生成的聚类中的DBI数量,如果每个数据点都被认为是DBI
,则为DBI
的极端情况自己的集群(因为每个数据点都与自己的质心重叠)。
如何使用DBI知道2个集群是否优于1个集群?那么,当我只有1个集群时,如何计算DBI?
因此,如果仅使用平均{{1}}作为效果指标,则很难说哪一个更好。
一个好的实用方法是使用Elbow method。
另一种方法着眼于作为群集数量函数解释的方差百分比:您应该选择多个群集,以便添加另一个群集不会提供更好的数据建模。更确切地说,如果您绘制由集群解释的方差百分比与集群数量的关系图,则第一个集群将添加大量信息(解释大量方差),但在某些时候边际增益会下降,从而给出一个角度。图形。此时选择簇的数量,因此是“肘部标准”。
与选择最佳群集数量相关的其他一些好的替代方案: