从R中的剪切树形图中提取标签成员资格/分类(即:树状图的cutree函数)

时间:2014-08-22 17:25:05

标签: r classification cluster-analysis dendrogram dendextend

我正在尝试从R中的树状图中提取一个分类,我在cut某个高度。这对于cutree对象上的hclust很容易,但我无法弄清楚如何在dendrogram对象上执行此操作。

此外,我不能只使用原始hclust中的群集,因为(令人沮丧),来自cutree的类的编号与具有cut的类的编号不同。

hc <- hclust(dist(USArrests), "ave")

classification<-cutree(hc,h=70)

dend1 <- as.dendrogram(hc)
dend2 <- cut(dend1, h = 70)


str(dend2$lower[[1]]) #group 1 here is not the same as
classification[classification==1] #group 1 here

是否有办法让分类相互映射,或者以格式从dendrogram对象中提取较低的分支成员资格(可能只是巧妙地使用dendrapply?)更像cutree给出的内容?

3 个答案:

答案 0 :(得分:14)

我建议您使用 dendextend 包中的cutree函数。它包括树状图方法(即:dendextend:::cutree.dendrogram)。

您可以从its introductory vignette了解有关该软件包的更多信息。

我应该补充一点,虽然您的函数(classify)很好,但使用 dendextend 中的cutree有几个好处:

  1. 它还允许您使用特定的k(群集数量),而不仅仅是h(特定高度)。

  2. 这与你从hclust上的cutree得到的结果一致(classify不会)。

  3. 通常会更快。

  4. 以下是使用代码的示例:

    # Toy data:
    hc <- hclust(dist(USArrests), "ave")
    dend1 <- as.dendrogram(hc)
    
    # Get the package:
    install.packages("dendextend")
    library(dendextend)
    
    # Get the package:
    cutree(dend1,h=70) # it now works on a dendrogram
    # It is like using:
    dendextend:::cutree.dendrogram(dend1,h=70)
    

    顺便说一下,在这个函数的基础上, dendextend 允许用户做更多很酷的事情,比如基于剪切树形图的颜色分支/标签:

    dend1 <- color_branches(dend1, k = 4)
    dend1 <- color_labels(dend1, k = 5)
    plot(dend1)
    

    enter image description here

    最后,这里有一些代码用于演示我的其他观点:

    # This would also work with k:
    cutree(dend1,k=4)
    
    # and would give identical result as cutree on hclust:
    identical(cutree(hc,h=70)  , cutree(dend1,h=70)  )
       # TRUE
    
    # But this is not the case for classify:
    identical(classify(dend1,70)   , cutree(dend1,h=70)  )
       # FALSE
    
    
    install.packages("microbenchmark")
    require(microbenchmark)
    microbenchmark(classify = classify(dend1,70),
                   cutree = cutree(dend1,h=70)  )
    #    Unit: milliseconds
    #        expr      min       lq   median       uq       max neval
    #    classify  9.70135  9.94604 10.25400 10.87552  80.82032   100
    #      cutree 37.24264 37.97642 39.23095 43.21233 141.13880   100
    # 4 times faster for this tree (it will be more for larger trees)
    
    # Although (if to be exact about it) if I force cutree.dendrogram to not go through hclust (which can happen for "weird" trees), the speed will remain similar:
    microbenchmark(classify = classify(dend1,70),
                   cutree = cutree(dend1,h=70, try_cutree_hclust = FALSE)  )
    # Unit: milliseconds
    #        expr       min        lq    median       uq      max neval
    #    classify  9.683433  9.819776  9.972077 10.48497 29.73285   100
    #      cutree 10.275839 10.419181 10.540126 10.66863 16.54034   100
    

    如果您正在考虑改进此功能的方法,请在此处进行修补:

    https://github.com/talgalili/dendextend/blob/master/R/cutree.dendrogram.R

    我希望你或其他人会觉得这个答案很有帮助。

答案 1 :(得分:6)

我最终使用dendrapply创建了一个函数。它不优雅,但它有效

classify <- function(dendrogram,height){

#mini-function to use with dendrapply to return tip labels
 members <- function(n) {
    labels<-c()
    if (is.leaf(n)) {
        a <- attributes(n)
        labels<-c(labels,a$label)
    }
    labels
 }

 dend2 <- cut(dendrogram,height) #the cut dendrogram object
 branchesvector<-c()
 membersvector<-c()

 for(i in 1:length(dend2$lower)){                             #for each lower tree resulting from the cut
  memlist <- unlist(dendrapply(dend2$lower[[i]],members))     #get the tip lables
  branchesvector <- c(branchesvector,rep(i,length(memlist)))  #add the lower tree identifier to a vector
  membersvector <- c(membersvector,memlist)                   #add the tip labels to a vector
 }
out<-as.integer(branchesvector)                               #make the output a list of named integers, to match cut() output
names(out)<-membersvector
out
}

使用该功能可以清楚地看出问题是cut会按字母顺序分配类别名称,而cutree会从左到右分配分支名称。

hc <- hclust(dist(USArrests), "ave")
dend1 <- as.dendrogram(hc)

classify(dend1,70) #Florida 1, North Carolina 1, etc.
cutree(hc,h=70)    #Alabama 1, Arizona 1, Arkansas 1, etc.

答案 2 :(得分:0)

一旦创建了树状图,请使用Cutree方法,然后将其转换为数据框。以下代码使用库dendextend制作了一个漂亮的树状图:

library(dendextend)

# set the number of clusters
clust_k <- 8

# make the hierarchical clustering
par(mar = c(2.5, 0.5, 1.0, 7))
d <- dist(mat, method = "euclidean")
hc <- hclust(d)
dend <- d %>% hclust %>% as.dendrogram
labels_cex(dend) <- .65
dend %>% 
  color_branches(k=clust_k) %>%
  color_labels() %>%
  highlight_branches_lwd(3) %>% 
  plot(horiz=TRUE, main = "Branch (Distribution) Clusters by Heloc Attributes", axes = T)

enter image description here

基于着色方案,看起来簇是在阈值4附近形成的。因此,要将分配分配到数据帧中,我们需要获取簇,然后unlist()

首先,您需要获取群集本身,但是,它只是数字的单个向量,行名是实际的标签。

# creates a single item vector of the clusters    
myclusters <- cutree(dend, k=clust_k, h=4)

# make the dataframe of two columns cluster number and label
clusterDF <-  data.frame(Cluster = as.numeric(unlist(myclusters)),
                         Branch = names(myclusters))

# sort by cluster ascending
clusterDFSort <- clusterDF %>% arrange(Cluster)