我已经阅读了一些资源,并且我发现了层次聚类的工作原理。然而,当我将它与k-means聚类进行比较时,在我看来,k-means确实构成了特定数量的聚类,而层次分析则向我展示了如何聚类样本。我的意思是我在层次聚类中没有获得特定数量的聚类。我只得到一个关于如何构建聚类以及样本之间关系的一部分的方案。
因此,我无法理解我可以在哪里使用这种聚类方法。
答案 0 :(得分:1)
分层聚类(HC)只是另一种基于距离的聚类方法,如k-means。群集的数量可以由cutting the dendrogram represented by HC粗略确定。确定数据集中的集群数对于所有集群方法来说并不是一件容易的事,因为这些方法通常基于您的应用程序。调整HC中的阈值对于研究人员来说可能更明确,更直接,特别是对于非常大的数据集。我认为this question也是相关的。
答案 1 :(得分:1)
在k均值聚类中,k是您需要找到的超参数,以便将数据点划分为聚类,而在层次聚类中(让我们采用一种类型的层次聚类,即团聚),首先要考虑数据集中的所有点作为一个群集,然后根据相似性指标合并两个群集,并重复此操作,直到获得单个群集。我将通过一个示例对此进行解释。
假设最初您的数据集中有13个点(x_1,x_2,....,x_13),所以一开始您将拥有13个聚类,现在在第二步中,您将获得7个聚类(x_1-x_2,x_4-x_5 ,x_6-x_8,x_3-x_7,x_11-x_12,x_10,x_13)之间的相似度。在第三步中,假设您得到了4个簇(x_1-x_2-x_4-x_5,x_6-x_8-x_10,x_3-x_7-x_13,x_11-x_12),您将到达一个步骤,其中数据集中的所有点形成一个聚类,这也是聚类聚类算法的最后一步。 因此,在分层集群中,没有超参数,具体取决于您的问题,如果要7个集群,则在第二步停止,如果要4个集群,则在第三步,等等。
分层聚类的实际优势是可以使用树状图可视化结果。如果您事先不知道要寻找的簇数(通常是…),则可以使用树状图来帮助您选择k,而无需创建单独的簇。树状图还可以深入了解数据结构,帮助识别异常值等。分层聚类也是确定性的,而对同一数据运行多次时,具有随机初始化的k-means可以提供不同的结果。
希望这会有所帮助。