来自单独数据集的两个相应列之间的相关性

时间:2016-10-05 12:37:22

标签: r correlation

我有两组数据,其中包含具有相同名称的列,但这些列中的值不同。 e.g:

m1 <- matrix(1:9, nrow = 3, ncol = 3, byrow = TRUE,
             dimnames = list(c("s1", "s2", "s3"),c("cow", "dog","cat")))
m2 <- matrix(1:9, nrow = 3, ncol = 3, byrow = FALSE,
             dimnames = list(c("s1", "s2", "s3"),c("dog", "cow","cat")))
> m1
   cow dog cat
s1   1   2   3
s2   4   5   6
s3   7   8   9
> m2
   dog cow cat
s1   1   4   7
s2   2   5   8
s3   3   6   9

我想使用cor.test()创建一个函数来计算相应列之间的相关性。例如。牛与牛,狗与狗。使用cor.test()的原因是我想获得相关系数和p值。因此,如果还有其他方法可以获取这些信息,我也会对这些信息持开放态度。实际数据集有数千列,这些列是随机组织的,因此我首先要寻找匹配列的方法,然后计算相关性。有任何想法吗?

1 个答案:

答案 0 :(得分:2)

这是一个解决方案,在公共列上使用lapply

# Common columns
cols <- intersect(colnames(m1), colnames(m2))

# For each column, compute cor test
res <- lapply(cols, function(x) cor.test(
  m1[, x],
  m2[, x]
))

names(res) <- cols

结果是您可以通过以下方式访问的htest个对象列表:res[["cow"]]