我知道有几种方法可以比较回归模型。创建模型的一种方法(从线性到多个)并比较R2,调整R2等:
Mod1: y=b0+b1
Mod2: y=b0+b1+b2
Mod3: y=b0+b1+b2+b3 (etc)
我知道有些软件包可以执行逐步回归,但我正在尝试使用purrr分析 。我可以创建几个简单线性模型(Thanks for this post here),现在我想知道如何创建回归模型将特定IV添加到等式:
可重现的代码
data(mtcars)
library(tidyverse)
library(purrr)
library(broom)
iv_vars <- c("cyl", "disp", "hp")
make_model <- function(nm) lm(mtcars[c("mpg", nm)])
fits <- Map(make_model, iv_vars)
glance_tidy <- function(x) c(unlist(glance(x)), unlist(tidy(x)[, -1]))
t(iv_vars %>% Map(f = make_model) %>% sapply(glance_tidy))
我想要的是什么:
Mod1: mpg ~cyl
Mod2: mpg ~cly + disp
Mod3: mpg ~ cly + disp + hp
非常感谢。
答案 0 :(得分:2)
您可以累计粘贴id_vars
的矢量以获得所需的组合。我使用代码in this answer来执行此操作。
我使用加号作为变量之间的分隔符,为lm
中的公式表示法做好准备。
cumpaste = function(x, .sep = " ") {
Reduce(function(x1, x2) paste(x1, x2, sep = .sep), x, accumulate = TRUE)
}
( iv_vars_cum = cumpaste(iv_vars, " + ") )
[1] "cyl" "cyl + disp" "cyl + disp + hp"
然后切换make_model
函数以使用公式和数据集。由加号分隔的解释变量将在公式中的波浪号后传递给函数。所有东西都粘贴在一起,lm
方便地将其解释为公式。
make_model = function(nm) {
lm(paste0("mpg ~", nm), data = mtcars)
}
我们可以看到所需的工作,返回带有两个解释变量的模型。
make_model("cyl + disp")
Call:
lm(formula = as.formula(paste0("mpg ~", nm)), data = mtcars)
Coefficients:
(Intercept) cyl disp
34.66099 -1.58728 -0.02058
您可能需要重新考虑如何将信息组合在一起,因为由于系数的增加,您现在将会看到不同的列数。
可能的选择是将dplyr::bind_rows
添加到glance_tidy
功能,然后使用 purrr 中的map_dfr
作为最终输出。
glance_tidy = function(x) {
dplyr::bind_rows( c( unlist(glance(x)), unlist(tidy(x)[, -1]) ) )
}
iv_vars_cum %>%
Map(f = make_model) %>%
map_dfr(glance_tidy, .id = "model")
# A tibble: 3 x 28
model r.squared adj.r.squared sigma statistic p.value df logLik AIC
<chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 cyl 0.7261800 0.7170527 3.205902 79.56103 6.112687e-10 2 -81.65321 169.3064
2 cyl + disp 0.7595658 0.7429841 3.055466 45.80755 1.057904e-09 3 -79.57282 167.1456
3 cyl + disp + hp 0.7678877 0.7430186 3.055261 30.87710 5.053802e-09 4 -79.00921 168.0184 ...
答案 1 :(得分:2)
我首先要创建一个存储公式的列表tibble。然后将模型映射到公式上,并对模型进行映射。
library(tidyverse)
library(broom)
mtcars %>% as_tibble()
formula <- c(mpg ~ cyl, mpg ~ cyl + disp)
output <-
tibble(formula) %>%
mutate(model = map(formula, ~lm(formula = .x, data = mtcars)),
glance = map(model, glance))
output$glance
output %>% unnest(glance)