使用数据框名称作为模型表中的列

时间:2018-05-16 20:53:39

标签: r purrr tibble rlang tidyeval

我对以下为什么不起作用感到困惑。我试图在多个模型数据框中使用数据框/ tibble的名称作为列,但是继续运行以防止出现以下错误。这是一个例子:

library(tidyverse)
library(rlang)

set.seed(666)
df1 <- tibble(
  x = 1:10 + rnorm(10),
  y = seq(20, 38, by=2) + rnorm(10),
  z = 2*x + 3*y
)

df2 <- tibble(
  x = 1:10 + rnorm(10),
  y = seq(20, 38, by=2) + rnorm(10),
  z = 4*x + 5*y
)

results <- tibble(dataset = c('df1','df2'))

请注意以下所有工作:

lm(z ~ x + y, data=df1)
lm(z ~ x + y, data=df2)
lm(z ~ x + y, data=eval(sym('df1')))

但是当我尝试以下内容时:

results <- results %>% mutate(model = lm(z ~ x + y, data = eval(sym(dataset))))

我收到错误

Error in mutate_impl(.data, dots) : 
  Evaluation error: Only strings can be converted to symbols.

有人能弄清楚如何使这项工作吗?

2 个答案:

答案 0 :(得分:1)

我们可以使用map函数并指定lm函数,如下所示。

library(tidyverse)
library(rlang)

results2 <- results %>% 
  mutate(model = map(dataset, ~lm(z ~ x + y, data = eval(sym(.)))))

results2
# # A tibble: 2 x 2
#   dataset model   
#   <chr>   <list>  
# 1 df1     <S3: lm>
# 2 df2     <S3: lm>

results2$model[[1]]
# Call:
#   lm(formula = z ~ x + y, data = eval(sym(.)))
# 
# Coefficients:
# (Intercept)            x            y  
#   6.741e-14    2.000e+00    3.000e+00

results2$model[[2]]
# Call:
#   lm(formula = z ~ x + y, data = eval(sym(.)))
# 
# Coefficients:
# (Intercept)            x            y  
#   9.662e-14    4.000e+00    5.000e+00 

答案 1 :(得分:1)

我建议您使用一条稍有不同的路由,在该路由中,您绑定所有数据并跳过evalsym调用。这是《 R for Data Science》中的"Many Models"章。

purrr::lst创建一个数据框列表,这些变量的名称作为列表的名称,.id的{​​{1}}参数使用这些名称创建一个列,将数据标记为来自bind_rowsdf1。嵌套创建列df2,它是数据帧的列表列。然后,您可以构建每个数据集的模型。我使用tilde shortcut notation构建了匿名函数。

结果:您有data列,它是模型列表。

model

您还有一列嵌套数据。如果您不想要,可以将其删除:

library(tidyverse)
library(rlang)

results <- lst(df1, df2) %>%
  bind_rows(.id = "dataset") %>%
  group_by(dataset) %>%
  nest() %>%
  mutate(model = map(data, ~lm(z ~ x + y, data = .)))

results$model[[1]]
#> 
#> Call:
#> lm(formula = z ~ x + y, data = .)
#> 
#> Coefficients:
#> (Intercept)            x            y  
#>   6.741e-14    2.000e+00    3.000e+00