当使用单个链接算法时,如何列出所有当前集群?

时间:2016-07-15 06:03:03

标签: python algorithm hierarchical-clustering linkage

我现在正在使用from scipy.cluster.hierarchy import linkage在python上进行群集 从手册我知道它给出了这种形式的结果 - > [A,B,长度,#] 其中A和B是要在此阶段(?)中合并的元素的索引,但是我可以获得有关已经合并但不会参与此阶段的集群的任何信息吗?

例如,我的数据集是

A=[[1,1],[1,2],[1,3],[1,4],[1,5], [10,1],[10,2],[10,3],[10,4],[10,5], [15,1],[15,2],[15,3],[15,4],[15,5], [30,1],[30,2],[30,3],[30,4],[30,5]]

并在其上应用单链接算法

Z = linkage(A, 'single')

Z=[[  0.   4.   1.   2.]
   [  1.  20.   1.   3.]
   [  2.  21.   1.   4.]
   [  3.  22.   1.   5.]
   [ 17.  19.   1.   2.]
   [  5.   9.   1.   2.]
   [  6.  25.   1.   3.]
   [  7.  26.   1.   4.]
   [  8.  27.   1.   5.]
   [ 18.  24.   1.   3.]
   [ 10.  14.   1.   2.]
   [ 11.  30.   1.   3.]
   [ 12.  31.   1.   4.]
   [ 13.  32.   1.   5.]
   [ 16.  29.   1.   4.]
   [ 15.  34.   1.   5.]
   [ 28.  33.   5.  10.]
   [ 23.  36.   9.  15.]
   [ 35.  37.  15.  20.]]

这里我选择5作为聚类中的距离限制,所以我得到了

[ 28. 33. 5. 10.]

然后我将28和33追溯到原始指数

cut = 5
temp1 = []
temp2 = []
for i in range(len(Z)):
if Z[i][2] >= cut:
    temp1.append(Z[i])
for i in range(2):
    temp2[i].append(int(temp1[0][i]))
for j in range(0, len(temp2)):
try:
    g = max(temp2[j])
except:
    continue
G = int(g - len(A))
while g >= len(A):
    ind = temp2[j].index(g)
    temp2[j].append(int(Z[G][0]))
    temp2[j].append(int(Z[G][1]))
    del temp2[j][ind]
    g = max(temp2[j])
    G = int(g - len(A))

并发现

temp2 = [[8, 7, 6, 5, 9], [13, 12, 11, 10, 14]]

这意味着' 28'代表点[10,1],[10,2],[10,3],[10,4],[10,5]和! 33'代表点[15,1],[15,2],[15,3],[15,4],[15,5],这显然意味着集群由[10,x]组成,并且由[15,x]组成的集群将在此阶段合并。

但显然[1,1],[1,2],[1,3],[1,4],[1,5][30,1],[30,2],[30,3],[30,4],[30,5]必须在早期阶段形成另外两个群集,所以在[10,x]和[15,x]合并之前的那一刻,目前有4个群集< / p>

所以我想要的结果就像

temp2 = [[8, 7, 6, 5, 9], [13, 12, 11, 10, 14], [0, 1, 2, 3, 4], [15, 16, 17, 18, 19]]

我该怎么做以获得后两个集群T ^ T ?? 感谢高级QQ

1 个答案:

答案 0 :(得分:2)

正如the documentation中所述,linkage为您提供了群集之间的距离,这与群集中元素之间的共生距离相同。如other documentation中所述,fcluster会为您提供平面群集,如果您指定'distance'作为标准,则会根据共生距离剪切树形图。

因此,您可以使用fcluster在所选距离对阈值进行阈值处理,从而获得所需内容。然而,轻微的皱纹是fcluster将阈值视为最大的肿块距离,而不是最低的分割距离,因此如果您使用5作为阈值,它将加入您指的两个聚类。并且只给你三个集群。您必须选择略小于5的阈值才能获得所需内容。例如:

from scipy.cluster import hierarchy as clust
>>> clust.fcluster(Z, 4.99999, criterion='distance')
array([2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 1, 1, 1, 1, 1])

这告诉您每个项目所在的群集。要将其转换回每个群集中的索引列表,您可以使用np.where

>>> clusters = clust.fcluster(Z, 4.99999, criterion='distance')
>>> [np.where(clusters==k)[0].tolist() for k in np.unique(clusters)]
[[15L, 16L, 17L, 18L, 19L],
 [0L, 1L, 2L, 3L, 4L],
 [5L, 6L, 7L, 8L, 9L],
 [10L, 11L, 12L, 13L, 14L]]

总而言之,我们的想法是看看你所谓的距离限制&#34;并使用fclust获得具有该距离(或者更小的距离)的平面簇作为阈值。这将为您提供每个索引的群集编号,然后您可以使用np.where获取每个群集的列表。