R中矩阵中的一对多相关计算

时间:2017-06-07 03:22:59

标签: r matrix correlation pearson-correlation

尝试在矩阵中计算特定基因(此处为其基因1)与所有其他基因(35999候选者)的相关性

         samp1   samp2   samp3   samp4
Gene 1  3.7891  2.4487  1.1939  0.6013
Gene 2  1.4484  3.2316  2.841   1.9545
Gene 3  0.4505  2.6062  2.0729  0.6403
.
.
Gene 36000  1.8828  5.2633  2.7552  1.7335

我使用了以下代码

library(Hmisc)
A <- read.table("C:/Users/Desktop/exp.txt", header=T, sep="\t")
cor <- rcorr(as.matrix(A), type="pearson")


write.csv(cor$r,'C:/Users/Desktop/pCC VALUES.csv')
write.csv(cor$P,'C:/Users/Desktop/p VALUES.csv')

但上面的代码用于36000 * 36000的矩阵计算。但是,我希望得到一对多相关性,其中感兴趣的基因始终是第一个基因。这里它的基因1.这将节省处理时间。一种方法显然是从输出中提取36000对我的兴趣。我想知道是否有任何其他方法可以在没有多对多计算的情况下找到我的基因与所有其他基因的相关性。

编辑:

我正在寻找格式

之类的输出
Gene 1 Gene 2   pcc  p-value
Gene 1 Gene 3   pcc  p-value
.
.
Gene 1 Gene 36000 pcc p-value
end

1 个答案:

答案 0 :(得分:0)

如果我说得对(将第一行与其他每一行相关联,一次取一行),那么这些内容可能会让你开始:

dat <- as.matrix(read.table(text = "samp1;samp2;samp3;samp4
Gene 1;3.7891;2.4487;1.1939;0.6013
Gene 2;1.4484;3.2316;2.841;1.9545
Gene 3;0.4505;2.6062;2.0729;0.6403
Gene 4;0.4705;2.4062;1.0729;0.6003
Gene 5;1.8828;5.2633;2.7552;1.7335", sep=";"))

corr_list <- list()

for (i in 2:nrow(dat)) {
  r <- cor.test(dat[1,], dat[i,])
  corr_list[[paste("Genes 1 &", i)]] <- c(r$estimate, p.val=r$p.value)
}


# Results
corr_list

$`Genes 1 & 2`
       cor      p.val 
-0.3070573  0.6929427 

$`Genes 1 & 3`
       cor      p.val 
-0.1417635  0.8582365 

$`Genes 1 & 4`
       cor      p.val 
0.04777015 0.95222985 

$`Genes 1 & 5`
      cor     p.val 
0.1425788 0.8574212 

如果更方便的话,您也可以将结果放在data.frame中:

corr_list <- data.frame(Gene1=numeric(), Gene2=numeric(), cor=numeric(), p.value=numeric())

for (i in 2:nrow(dat)) {
  r <- cor.test(dat[1,], dat[i,])
  corr_list[i-1,] <- c(1, i, r$estimate, r$p.value)
}

corr_list

  Gene1 Gene2         cor   p.value
1     1     2 -0.30705735 0.6929427
2     1     3 -0.14176355 0.8582365
3     1     4  0.04777015 0.9522299
4     1     5  0.14257884 0.8574212