我有两个数据框。第一个df1
是带有标记列的向量矩阵,如下所示:
df1 <- data.frame(A=rnorm(10), B=rnorm(10), C=rnorm(10), D=rnorm(10), E=rnorm(10))
> df1
A B C D E
-0.3200306 0.4370963 -0.9146660 1.03219577 0.5215359
-0.3193144 0.8900656 -1.1720264 -0.42591761 0.1936993
0.4897262 -1.3970806 0.6054637 0.12487936 1.0149530
0.3772420 0.8726322 0.3250020 -0.36952560 -0.5447512
-0.6921561 -0.6734468 0.3500812 -0.53373720 -0.6129472
0.2540649 -1.1911106 -0.3266428 0.14013437 1.0830148
0.6606825 -0.8942715 1.1099637 -1.52416540 -0.2383048
1.4767074 -2.1492360 0.2441242 -0.36136344 0.5589114
-0.5338117 -0.2357821 0.7694879 -0.21652356 0.3185631
3.4215916 -0.3157938 0.8895597 0.09946069 -1.0961730
第二个数据框df2
包含与colnames
df1
匹配的项目。例如:
group <- c("1", "1", "2", "2", "3", "3")
S1 <- c("A", "D", "E", "C", "B", "D")
S2 <- c("D", "B", "A", "C", "B", "A")
S3 <- c("B", "C", "A", "E", "E", "A")
df2 <- data.frame(group,S1, S2, S3)
> df2
group S1 S2 S3
1 A D B
1 D B C
2 E A A
2 C C E
3 B B E
3 D A A
我想计算df1
中与df2
中标记项对应的列向量之间的相关性。具体而言,匹配cor(df2$S1, df2$S2)
和cor(df2$S1, df2$S3)
。
输出应该是这样的:
group S1 S2 S3 cor.S1.S2 cor.S1.S3
1 A D B 0.003825055 -0.2817946
1 D B C -0.2817946 -0.4928023
2 E A A -0.3856809 -0.3856809
2 C C E 1 -0.3862433
3 B B E 1 -0.3888541
3 D A A 0.003825055 0.003825055
我一直在尝试使用cbind[]
来解决此问题,但一直遇到问题,例如'x' must be numeric
错误cor
。在此先感谢您的帮助!
答案 0 :(得分:3)
您可以使用mapply()
执行此操作。
my.cor <- function(x,y) {
cor(df1[,x],df1[,y])
}
df2$cor.S1.S2 <- mapply(my.cor,df2$S1,df2$S2)
df2$cor.S2.S3 <- mapply(my.cor,df2$S2,df2$S3)
答案 1 :(得分:0)
另一种方法是在对&lt; df1&#39;的列进行子集化后获得matrix/data.frame
之间的相关性。使用&#39; df2&#39;列,获取diag
并将输出分配为&#39; df2&#39;中的新列。在这里,我正在使用lapply
,因为我们必须同时执行“S1与S2&#39;和&#39; S1 vs S3&#39;。
df2[c('cor.S1.S2', 'cor.S1.S3')] <- lapply(c('S2', 'S3'),
function(x) diag(cor(df1[, df2[,x]], df1[,df2$S1])))