Purrr和R中的几个多元回归

时间:2017-11-28 23:22:43

标签: r linear-regression purrr broom

我知道有几种方法可以比较回归模型。创建模型的一种方法(从线性到多个)并比较R2,调整R2等:

Mod1: y=b0+b1
Mod2: y=b0+b1+b2
Mod3: y=b0+b1+b2+b3 (etc)

我知道有些软件包可以执行逐步回归,但我正在尝试使用purrr分析 。我可以创建几个简单线性模型Thanks for this post here),现在我想知道如何创建回归模型将特定IV添加到等式

可重现的代码

data(mtcars)
library(tidyverse)
library(purrr)
library(broom)
iv_vars <- c("cyl", "disp", "hp")
make_model <- function(nm) lm(mtcars[c("mpg", nm)])
fits <- Map(make_model, iv_vars)
glance_tidy <- function(x) c(unlist(glance(x)), unlist(tidy(x)[, -1]))
t(iv_vars %>% Map(f = make_model) %>% sapply(glance_tidy))

输出 output of linear models

我想要的是什么:

Mod1: mpg ~cyl
Mod2: mpg ~cly + disp
Mod3: mpg ~ cly + disp + hp

非常感谢。

2 个答案:

答案 0 :(得分:2)

您可以累计粘贴id_vars的矢量以获得所需的组合。我使用代码in this answer来执行此操作。

我使用加号作为变量之间的分隔符,为lm中的公式表示法做好准备。

cumpaste = function(x, .sep = " ") {
     Reduce(function(x1, x2) paste(x1, x2, sep = .sep), x, accumulate = TRUE)
}

( iv_vars_cum = cumpaste(iv_vars, " + ") )

[1] "cyl"             "cyl + disp"      "cyl + disp + hp"

然后切换make_model函数以使用公式和数据集。由加号分隔的解释变量将在公式中的波浪号后传递给函数。所有东西都粘贴在一起,lm方便地将其解释为公式。

make_model = function(nm) {
     lm(paste0("mpg ~", nm), data = mtcars)
}

我们可以看到所需的工作,返回带有两个解释变量的模型。

make_model("cyl + disp")

Call:
lm(formula = as.formula(paste0("mpg ~", nm)), data = mtcars)

Coefficients:
(Intercept)          cyl         disp  
   34.66099     -1.58728     -0.02058  

您可能需要重新考虑如何将信息组合在一起,因为由于系数的增加,您现在将会看到不同的列数。

可能的选择是将dplyr::bind_rows添加到glance_tidy功能,然后使用 purrr 中的map_dfr作为最终输出。

glance_tidy = function(x) {
     dplyr::bind_rows( c( unlist(glance(x)), unlist(tidy(x)[, -1]) ) )
}

iv_vars_cum %>% 
     Map(f = make_model) %>% 
     map_dfr(glance_tidy, .id = "model")

# A tibble: 3 x 28

            model r.squared adj.r.squared    sigma statistic      p.value    df    logLik      AIC
            <chr>     <dbl>         <dbl>    <dbl>     <dbl>        <dbl> <dbl>     <dbl>    <dbl>
1             cyl 0.7261800     0.7170527 3.205902  79.56103 6.112687e-10     2 -81.65321 169.3064
2      cyl + disp 0.7595658     0.7429841 3.055466  45.80755 1.057904e-09     3 -79.57282 167.1456
3 cyl + disp + hp 0.7678877     0.7430186 3.055261  30.87710 5.053802e-09     4 -79.00921 168.0184 ...

答案 1 :(得分:2)

我首先要创建一个存储公式的列表tibble。然后将模型映射到公式上,并对模型进行映射。

library(tidyverse)
library(broom)

mtcars %>% as_tibble()

formula <- c(mpg ~ cyl, mpg ~ cyl + disp)

output <-
  tibble(formula) %>% 
  mutate(model = map(formula, ~lm(formula = .x, data = mtcars)),
         glance = map(model, glance))

output$glance

output %>% unnest(glance)