了解Scikit Learn中Birch群集的设置

时间:2016-05-14 18:14:37

标签: python scipy scikit-learn cluster-analysis hierarchical-clustering

我正在测试Scikit Learn中实现的Birch clustering算法。我对手册中的陈述感到有些困惑;关于参数n_clusters,它说明了

n_clusters : int, instance of sklearn.cluster model, default None

另一方面,算法的初始描述如下:

  

class sklearn.cluster.Birch(threshold = 0.5,branching_factor = 50, n_clusters = 3 ,compute_labels = True,copy = True)

我认为这意味着默认情况下n_clusters设置为 3 ,而不是。这也是我运行它时似乎正在做的事情。

我是否以某种方式误读了这个?这背后的逻辑是什么?

(我想我并不是100%确定这个设置实际上做了什么;我理解它对Birch方法的结果应用了一种额外的精细聚类。)

非常感谢任何帮助!

1 个答案:

答案 0 :(得分:1)

是的,你是对的。默认值应为3而不是None。

n_clusters = integer时,模型拟合变为Agglomerative Clustering,其n_clusters设置为integer的值。

n_clusters = None时,不执行进一步的聚类步骤,并且按原样返回子聚类。

See #6635 github issue