带有子集的R中的cor()函数

时间:2015-01-02 22:46:07

标签: r for-loop correlation

我在R中有一个有三列的表。我想在一组特定条件之后得到前两列与第三列子集的相关性(值都是数字,我希望它们是>某个数字)。 cor()函数似乎没有定义这样一个子集的参数。

我知道我可以使用summary(lm())函数和平方根r ^ 2,但问题是我在for循环中执行此操作并且只是附加了与我所拥有的单独列表相关联。我无法将回归摘要的一部分轻松附加到列表中。

以下是我要做的事情:

for (i in x) {list[i] = cor(data$column_a, data$column_b, subset = data$column_c > i)}

显然,我不能这样做,因为cor()函数不适用于子集。

(注意:x = seq(1,100)和list = NULL)

3 个答案:

答案 0 :(得分:1)

您可以在不使用lapply的循环的情况下执行此操作。这里有一些代码将输出一个数据框,其中月份范围在一列中,而相关性在另一列中。 do.call(rbind...业务只是从lapply获取列表输出并将其转换为数据框。

corrs = do.call(rbind, lapply(min(airquality$Month):max(airquality$Month), 
                              function(x) {
          data.frame(month_range=paste0(x," - ", max(airquality$Month)), 
             correlation = cor(airquality$Temp[airquality$Month >= x & airquality$Temp < 80],
                               airquality$Wind[airquality$Month >= x & airquality$Temp < 80]))
          }))

corrs 
  month_range correlation
1       5 - 9  -0.3519351
2       6 - 9  -0.2778532
3       7 - 9  -0.3291274
4       8 - 9  -0.3395647
5       9 - 9  -0.3823090

答案 1 :(得分:0)

您可以先对数据进行子集化,然后找到相关性。

a <- subset(airquality, Temp < 80 & Month > 7)
cor(a$Temp, a$Wind)

编辑:我真的不知道你的list变量是什么,但这里有一个基于i动态更改子集的示例(请参阅每次迭代时月份要求如何变化)

list <- seq(1, 5)

for (i in 1:5){

  a <- subset(airquality, Temp < 80 & Month > i)
  list[i] <- cor(a$Temp, a$Wind)

}

答案 2 :(得分:0)

基于您单独提供的伪代码,这里应该有用:

for (i in x) {
    df <- subset(data, column_c > i)
    list[i] = cor(df$column_a, df$column_b)
}

但是,我不知道为什么您希望list[i]中的索引与用于子集column_c的值相同。这可能是另一个问题的根源。