我正在尝试理解如何操作层次结构集群,但文档太......技术性?......我无法理解它是如何工作的。
是否有任何教程可以帮助我开始,逐步解释一些简单的任务?
假设我有以下数据集:
a = np.array([[0, 0 ],
[1, 0 ],
[0, 1 ],
[1, 1 ],
[0.5, 0 ],
[0, 0.5],
[0.5, 0.5],
[2, 2 ],
[2, 3 ],
[3, 2 ],
[3, 3 ]])
我可以轻松地完成层次结构聚类并绘制树形图:
z = linkage(a)
d = dendrogram(z)
[0,1,2,4,5,6]
的那个?答案 0 :(得分:61)
分层凝聚聚类(HAC)有三个步骤:
metric
参数)method
参数)否则
z = linkage(a)
将完成前两个步骤。由于您未指定任何参数,因此使用标准值
metric = 'euclidean'
method = 'single'
因此,z = linkage(a)
将为您提供a
的单个链接层次凝聚聚类。这种聚类是一种解决方案的层次结构。从此层次结构中,您可以获得有关数据结构的一些信息。你现在可以做的是:
metric
是合适的,e。 G。 cityblock
或chebychev
会以不同方式量化您的数据(cityblock
,euclidean
和chebychev
对应L1
,L2
和{ {1}}规范)L_inf
的不同属性/行为(例如methdos
,single
和complete
)这是从
开始的average
给出