比较R中的层次聚类

时间:2018-07-20 20:16:58

标签: r hierarchical-clustering dendrogram

我正在使用软件包dendextend和函数cor_cophenetic来计算6个层次聚类之间的显着距离。 R在其中输出它们之间的相关性。

当前我使用的代码很简单:

cor_cophenetic(hcr1,hcr2)
cor_cophenetic(hcr1,hcr3)
cor_cophenetic(hcr1,hcr4)
cor_cophenetic(hcr1,hcr5)
cor_cophenetic(hcr1,hcr6)
cor_cophenetic(hcr2,hcr3)
            :
            :
cor_cophenetic(hcr4,hcr6)
cor_cophenetic(hcr5,hcr6)

分别输出相关性。

我知道有一个函数outer可以做到这一点,但是我不确定如何将此命令合并到其中。我正在尝试将输出作为15x15矩阵。

这也只是在计算相关性。有什么方法可以目视比较两个树状图?

1 个答案:

答案 0 :(得分:3)

进一步阅读后,我发现虽然cor_cophenetic()一次不能处理两个以上的树状列表元素,但是cor.dendlist()可以并且将计算同义相关(这其中包括其他内容)简单得多。

names(dend.l) <- met
round(cor.dendlist(dend.l), 4)
#          complete single average centroid
# complete   1.0000 0.4925  0.6044   0.4822
# single     0.4925 1.0000  0.9851   0.9959
# average    0.6044 0.9851  1.0000   0.9871
# centroid   0.4822 0.9959  0.9871   1.0000

使用cor_cophenetic()和示例数据的原始答案:

我认为您无法为此工作outer(),因为它期望一个原子类型的对象(矢量,矩阵或数组)。我们将不得不使用expand.grid()apply()来推出自己的产品。

library(dendextend)
library(magrittr)

# example data
set.seed(23235)
ss <- sample(1:150, 10 )

dend.l <- dendlist()
met <- c("complete", "single", "average", "centroid")

for (i in 1:length(met)) {
    dend <- iris[ss,-5] %>% dist %>% hclust(met[i])
    dend.l[[i]] <- as.dendrogram(dend)
}

ind <- expand.grid(1:length(dend.l), 1:length(dend.l))

# turns out cor_cophenetic has a method for dendlist where you can
# specify which elements you want to compare. Simplifies things a little
v <- apply(ind, 1, function(x) cor_cophenetic(dend.l, x))
m <- matrix(v, length(dend.l))
dimnames(m) <- list(met, met)

round(m, 4)
#          complete single average centroid
# complete   1.0000 0.4925  0.6044   0.4822
# single     0.4925 1.0000  0.9851   0.9959
# average    0.6044 0.9851  1.0000   0.9871
# centroid   0.4822 0.9959  0.9871   1.0000

如您所见,矩阵是对称的,因此我们可以不用combn()而不是expand.grid了,这只会给我们一个三角形。

关于在视觉上比较两个树状图,请查看Introduction to dendextend部分“比较两个树状图”。