高效绘制部分层次集群

时间:2019-07-02 18:13:50

标签: r visualization hierarchical-clustering

我正在对130K行(130K唯一键)和7列的数据集运行聚集集群,每列的范围从20到2000个唯一级别。数据是分类的,特别是字母数字代码。最多可以将它们视为因素。我正在尝试从k模式的几个替代方案(包括层次聚类和MCA)中获得的结果。

我的问题是,有没有什么好的方法可以将结果可视化到树状结构的某个水平?

标准步骤没问题:

library{cluster}
  • 计算高尔距离,

    ptm <- proc.time()
    gower.dist <- daisy(df[,colnams], metric = c("gower"))
    elapsed <- proc.time() - ptm
    c(elapsed[3],elapsed[3]/60)
    
  • 根据Gower距离计算聚集聚类对象

    aggl.clust.c <- hclust(gower.dist, method = "complete")
    

现在要绘制它。以下行有效,但该图难以理解

plot(aggl.clust.c, main = "Agglomerative, complete linkages")

理想情况下,我正在寻找的东西是这样的(下面是在我的系统上失败的伪代码)

plot(cutree(aggl.clust.c, k=7), main = "Agglomerative, complete linkages")

我正在运行R版本3.2.3。该版本无法更改(我不认为它应该为我尝试做的事情有所作为)。

如果有人有很好的指针,我会对在Python中执行相同的操作感兴趣。

1 个答案:

答案 0 :(得分:0)

我发现了一个有用的答案,该问题使用as.dendogram()方法重新绘制了树的一部分。链接:http://www.sthda.com/english/wiki/beautiful-dendrogram-visualizations-in-r-5-must-known-methods-unsupervised-machine-learning