合并集群

时间:2017-12-13 00:21:40

标签: r plot cluster-analysis

我有一个矩阵,用于描述群组中的对象。

n <- 6 # number of objects
group <- matrix(c(1,2,1,4,1,3,6,3,5,3,NA,NA,2,NA,2,NA,NA,6,NA,6,NA,NA,NA,NA,4,NA,NA,NA,NA,5),5,6)
colnames(group) <- colnames(group, do.NULL = FALSE, prefix = "obj.")
rownames(group) <- rownames(group, do.NULL = FALSE, prefix = "step.")
group #  an n-1 by n matrix
#        obj.1 obj.2 obj.3 obj.4 obj.5 obj.6
# step.1     1     3    NA    NA    NA    NA
# step.2     2     6    NA    NA    NA    NA
# step.3     1     3     2     6    NA    NA
# step.4     4     5    NA    NA    NA    NA
# step.5     1     3     2     6     4     5

我想在步骤中创建一个包含聚类的矩阵。此矩阵等于 hclust 函数中返回的对象合并。

merge <- matrix(c(-1, -2, 1, -4, 3, -3, -6, 2, -5, 4), 5, 2)
merge
#      [,1] [,2]
# [1,]   -1   -3
# [2,]   -2   -6
# [3,]    1    2
# [4,]   -4   -5
# [5,]    3    4
  

merge是一个n-1乘2矩阵。合并的第i行描述了在聚类的步骤i处的聚类的合并。如果行中的元素j为负,则在此阶段合并观察-j。如果j为正,则合并与在算法的(较早的)阶段j处形成的聚类一起。因此,合并中的否定条目表示单例的聚集,而正条目表示非单一的聚集。

我找不到简单的解决方案。这有什么功能吗?

1 个答案:

答案 0 :(得分:0)

基本上你有一组组(每行一组)......

group
#        obj.1 obj.2 obj.3 obj.4 obj.5 obj.6
# step.1     1     3    NA    NA    NA    NA
# step.2     2     6    NA    NA    NA    NA
# step.3     1     3     2     6    NA    NA
# step.4     4     5    NA    NA    NA    NA
# step.5     1     3     2     6     4     5

...并且您想知道合并了哪两个前一行以形成当前行。

我首先创建一个矩阵,指示每个对象是否在特定行中:

(hasObs <- sapply(seq_len(ncol(group)), function(i) rowSums(!is.na(group) & group == i)))
#        [,1] [,2] [,3] [,4] [,5] [,6]
# step.1    1    0    1    0    0    0
# step.2    0    1    0    0    0    1
# step.3    1    1    1    0    0    1
# step.4    0    0    0    1    1    0
# step.5    1    1    1    1    1    1

我会用它来创建一个矩阵,其中每个元素(i,j)表示j出现的最近一行(在i之前)(如果没有这样的前一行,则表示-j):

(prevObs <- sapply(seq_len(ncol(hasObs)), function(i) {
  pos <- which(head(hasObs, -1)[,i] == 1)
  rep(c(-i, pos), diff(c(0, pos, nrow(hasObs))))
}))
#        [,1] [,2] [,3] [,4] [,5] [,6]
#          -1   -2   -3   -4   -5   -6
# step.1    1   -2    1   -4   -5   -6
# step.1    1    2    1   -4   -5    2
# step.3    3    3    3   -4   -5    3
# step.3    3    3    3    4    4    3

现在很容易确定合并哪些行以生成当前行:

t(apply(hasObs*prevObs, 1, function(x) unique(x[x != 0])))
#        [,1] [,2]
# step.1   -1   -3
# step.2   -2   -6
# step.3    1    2
# step.4   -4   -5
# step.5    3    4

第一行组合单个元素1和3,下一个组合单个元素2和6,第三行组合前两个组,第四个组合单个元素4和5,第五行组合来自行3和4。