我正在对130K行(130K唯一键)和7列的数据集运行聚集集群,每列的范围从20到2000个唯一级别。数据是分类的,特别是字母数字代码。最多可以将它们视为因素。我正在尝试从k模式的几个替代方案(包括层次聚类和MCA)中获得的结果。
我的问题是,有没有什么好的方法可以将结果可视化到树状结构的某个水平?
标准步骤没问题:
library{cluster}
计算高尔距离,
ptm <- proc.time()
gower.dist <- daisy(df[,colnams], metric = c("gower"))
elapsed <- proc.time() - ptm
c(elapsed[3],elapsed[3]/60)
根据Gower距离计算聚集聚类对象
aggl.clust.c <- hclust(gower.dist, method = "complete")
现在要绘制它。以下行有效,但该图难以理解
plot(aggl.clust.c, main = "Agglomerative, complete linkages")
理想情况下,我正在寻找的东西是这样的(下面是在我的系统上失败的伪代码)
plot(cutree(aggl.clust.c, k=7), main = "Agglomerative, complete linkages")
我正在运行R版本3.2.3。该版本无法更改(我不认为它应该为我尝试做的事情有所作为)。
如果有人有很好的指针,我会对在Python中执行相同的操作感兴趣。
答案 0 :(得分:0)
我发现了一个有用的答案,该问题使用as.dendogram()
方法重新绘制了树的一部分。链接:http://www.sthda.com/english/wiki/beautiful-dendrogram-visualizations-in-r-5-must-known-methods-unsupervised-machine-learning