我在python中使用KMeans和sklearn中的silhouette_score来计算我的群集,但是在> 10.000个样本中使用> 1000群集计算silhouette_score非常慢。
答案 0 :(得分:3)
查找簇数的最常用方法是弯曲曲线法。但它需要您多次运行KMeans算法来绘制图形。 https://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set维基页面提到了一些确定群集数量的常用方法。
答案 1 :(得分:3)
轮廓分数,虽然是更有吸引力的措施之一,但是O(n ^ 2)。这意味着,计算分数比计算k均值聚类要贵得多!
此外,这些分数只是启发式。它们不会以任何方式产生“最佳”聚类。他们只给出了如何选择k的提示,但很多时候你会发现其他k更好!所以不要盲目相信这些分数。