我有一个巨大的相关矩阵,但以下只是一个例子:
set.seed(1234)
corrmat <- matrix(round (rnorm (36, 0, 0.3),2), ncol=6)
rownames (corrmat) <- colnames (corrmat) <- c("A", "b1", "b2", "C", "L", "ctt")
diag(corrmat) <- NA
corrmat[upper.tri (corrmat)] <- NA
A b1 b2 C L ctt
A NA NA NA NA NA NA
b1 0.08 NA NA NA NA NA
b2 0.33 -0.17 NA NA NA NA
C -0.70 -0.27 -0.03 NA NA NA
L 0.13 -0.14 -0.15 -0.13 NA NA
ctt 0.15 -0.30 -0.27 0.14 -0.28 NA
> melt(corrmat)
X1 X2 value
1 A A NA
2 b1 A 0.08
3 b2 A 0.33
4 C A -0.70
5 L A 0.13
6 ctt A 0.15
7 A b1 NA
8 b1 b1 NA
9 b2 b1 -0.17
10 C b1 -0.27
11 L b1 -0.14
12 ctt b1 -0.30
13 A b2 NA
14 b1 b2 NA
15 b2 b2 NA
16 C b2 -0.03
17 L b2 -0.15
18 ctt b2 -0.27
19 A C NA
20 b1 C NA
21 b2 C NA
22 C C NA
23 L C -0.13
24 ctt C 0.14
25 A L NA
26 b1 L NA
27 b2 L NA
28 C L NA
29 L L NA
30 ctt L -0.28
31 A ctt NA
32 b1 ctt NA
33 b2 ctt NA
34 C ctt NA
35 L ctt NA
36 ctt ctt NA
我所看到的是仅相邻之间的相关值 - 表示A-b1,b1-b2,b2-C,C-L,L-ctt之间的相关值(按列中的顺序)。我需要删除其他值和NA。因此预期将是:
X1 X2 value
2 b1 A 0.08
9 b2 b1 -0.17
16 C b2 -0.03
23 L C -0.13
30 ctt L -0.28
因此他们处于:A-b1-b2-C-L-ctt
顺序。
有一种简单的方法来过滤它吗?
答案 0 :(得分:7)
以下是使用经常被忽略的函数row()
和col()
> corrmat ## my version as there was no set.seed
A b1 b2 C L ctt
A NA NA NA NA NA NA
b1 0.03 NA NA NA NA NA
b2 -0.41 -0.02 NA NA NA NA
C 0.11 0.61 -0.18 NA NA NA
L -0.28 -0.28 0.39 0.01 NA NA
ctt -0.21 -0.41 -0.55 0.34 -0.13 NA
> corrmat[row(corrmat) == col(corrmat) + 1]
[1] 0.03 -0.02 -0.18 0.01 -0.13
请注意,我们将矩阵corrmat
索引为此处的向量,括号中的位表示返回元素,其中每个元素的行索引与每个元素的列索引加1匹配。使用{{1会给你超对角线(即在对角线上方)。
把它们放在一起:
-1
答案 1 :(得分:4)
这是一种方式:
n = rownames(corrmat)
pair.table = data.frame(X1=head(n, -1), X2=tail(n, -1), value=diag(tail(corrmat, -1)))
结果:
> pair.table
X1 X2 value
1 A b1 0.08
2 b1 b2 -0.17
3 b2 C -0.03
4 C L -0.13
5 L ctt -0.28
答案 2 :(得分:2)
它只是相关矩阵对角线的1。所以,你需要做的只是将对角线移动到那个并且你已经设置好了。删除第一行和最后一列,然后它只是diag
。
corrmat <- corrmat[-1,-ncol(corrmat)]
data.frame(X1 = rownames(corrmat), X2 = colnames(corrmat), r = diag(corrmat))
答案 3 :(得分:1)
我的解决方案基于行/共同名称生成组合(梳子函数)并“查找”方形距离矩阵中的条目。 SIF代表简单交互文件。
makeSIF <- function(x) {
# args -
# x - m*m distance or correlation matrix
# @returns data frame in SIF format
#
sif <- as.data.frame(t(combn(as.character(rownames(x)), 2)))
#print(sif)
weight <- apply(sif, 1, indexDMatFromLookup, x)
sif2 <- data.frame(sif, weight)
return(sif2)
}
indexDMatFromLookup <- function(lookup, x) {
return(indexDMat(x, lookup[1], lookup[2]))
}
indexDMat <- function(x, i1,i2) {
return(x[i1,i2])
}
看到其他答案,这可能要慢得多。
编辑:实际上并不太糟糕。
system.time(复制(1000,makeSIF(corrmat)))
用户系统已用完
0.976 0.000 0.975
system.time(复制(1000,data.frame(X1 = head(n,-1),X2 = tail(n,-1),value = diag(tail(corrmat,-1)))))
用户系统已用完
0.656 0.000 0.658
只比约翰的方法慢一点点。