指定凝聚聚类中的最大距离(scikit learn)

时间:2017-01-24 09:50:53

标签: python algorithm scikit-learn hierarchical-clustering

使用聚类算法时,您始终必须指定关闭参数。

我目前正在使用带有scikit learn的凝聚聚类,我能看到的唯一关闭参数是聚类数。

agg_clust = AgglomerativeClustering(n_clusters=N)
y_pred = agg_clust.fit_predict(matrix)

但我想找到一种算法,您可以在其中指定群集元素内的最大距离,而不是群集的数量。 因此,该算法将简单地聚集聚类,直到达到最大距离。

有什么建议吗?

1 个答案:

答案 0 :(得分:1)

您要查找的内容已在 scipy.cluster.hierarchy 中实现,请参见here

这是您的操作方法:

from scipy.cluster.hierarchy import linkage, fcluster
y_pred = fcluster(linkage(matrix), t, criterion='distance')  

# or more direct way
from scipy.cluster.hierarchy import fclusterdata
y_pred = fclusterdata(matrix, t, criterion='distance')