我对以下为什么不起作用感到困惑。我试图在多个模型数据框中使用数据框/ tibble的名称作为列,但是继续运行以防止出现以下错误。这是一个例子:
library(tidyverse)
library(rlang)
set.seed(666)
df1 <- tibble(
x = 1:10 + rnorm(10),
y = seq(20, 38, by=2) + rnorm(10),
z = 2*x + 3*y
)
df2 <- tibble(
x = 1:10 + rnorm(10),
y = seq(20, 38, by=2) + rnorm(10),
z = 4*x + 5*y
)
results <- tibble(dataset = c('df1','df2'))
请注意以下所有工作:
lm(z ~ x + y, data=df1)
lm(z ~ x + y, data=df2)
lm(z ~ x + y, data=eval(sym('df1')))
但是当我尝试以下内容时:
results <- results %>% mutate(model = lm(z ~ x + y, data = eval(sym(dataset))))
我收到错误
Error in mutate_impl(.data, dots) :
Evaluation error: Only strings can be converted to symbols.
有人能弄清楚如何使这项工作吗?
答案 0 :(得分:1)
我们可以使用map
函数并指定lm
函数,如下所示。
library(tidyverse)
library(rlang)
results2 <- results %>%
mutate(model = map(dataset, ~lm(z ~ x + y, data = eval(sym(.)))))
results2
# # A tibble: 2 x 2
# dataset model
# <chr> <list>
# 1 df1 <S3: lm>
# 2 df2 <S3: lm>
results2$model[[1]]
# Call:
# lm(formula = z ~ x + y, data = eval(sym(.)))
#
# Coefficients:
# (Intercept) x y
# 6.741e-14 2.000e+00 3.000e+00
results2$model[[2]]
# Call:
# lm(formula = z ~ x + y, data = eval(sym(.)))
#
# Coefficients:
# (Intercept) x y
# 9.662e-14 4.000e+00 5.000e+00
答案 1 :(得分:1)
我建议您使用一条稍有不同的路由,在该路由中,您绑定所有数据并跳过eval
和sym
调用。这是《 R for Data Science》中的"Many Models"章。
purrr::lst
创建一个数据框列表,这些变量的名称作为列表的名称,.id
的{{1}}参数使用这些名称创建一个列,将数据标记为来自bind_rows
或df1
。嵌套创建列df2
,它是数据帧的列表列。然后,您可以构建每个数据集的模型。我使用tilde shortcut notation构建了匿名函数。
结果:您有data
列,它是模型列表。
model
您还有一列嵌套数据。如果您不想要,可以将其删除:
library(tidyverse)
library(rlang)
results <- lst(df1, df2) %>%
bind_rows(.id = "dataset") %>%
group_by(dataset) %>%
nest() %>%
mutate(model = map(data, ~lm(z ~ x + y, data = .)))
results$model[[1]]
#>
#> Call:
#> lm(formula = z ~ x + y, data = .)
#>
#> Coefficients:
#> (Intercept) x y
#> 6.741e-14 2.000e+00 3.000e+00