在变量的幂集中运行线性模型

时间:2018-12-04 21:29:36

标签: r linear-regression data-modeling

我正在尝试获取一个具有不同变量的数据框,并对这些变量的每种组合运行一个线性模型。

一个简单的例子是:

names <- c("Var1", "Var2", "Var3") 
vars <- ggm::powerset(names, sort = T, nonempty = T) 

powerset函数为我提供了3个变量的所有组合-一个包含7个元素的列表,每个元素都是character类型。 (我尝试运行的实际代码具有16个变量,这就是为什么我不想手动编写每个模型的原因。)

我现在想做的是在每种变量组合中运行模型。现在,我已经编写了以下代码(虽然不起作用,但是可能是一个不错的开始):

i <- 1
for (dep_var in vars){
  assign(paste0("modelo", i), lm(lapply(paste("Y", dep_var, sep = "~"), formula), 
  data = data))
  i <- i+1
}

最终,我想创建不同的模型,并从样本AIC和BIC以及样本MAE和RMSE的组合中选择最佳模型。

非常感谢!任何帮助表示赞赏!

1 个答案:

答案 0 :(得分:1)

使用mtcars作为因变量的mpg数据和用于模型选择的AIC集合的简单示例。我同意,有很多R软件包可以根据某些标准(bestglmleapsglmultiMASS)测试多个模型。

mtcars_exp <- mtcars %>%
  select(-mpg)

vars <- ggm::powerset(names(mtcars_exp), sort = T, nonempty = T) 

results <- data.frame(AIC_lm_fit =  vector("numeric"),
           model = vector("character"))

用于拟合线性模型的循环

for (j in 1:length(vars)){
  lm_fit <- lm(mpg ~ ., data = mtcars[,c("mpg", vars[[j]])])
  results <- rbind(results,
                   data.frame(AIC_lm_fit =  AIC(lm_fit),
                            model = toString(vars[[j]])))
}

选择具有最小AIC的模型

results[AIC_lm_fit==min(AIC_lm_fit),]
        AIC_lm_fit        model
105   154.1194 wt, qsec, am

与MASS :: stepAIC函数的结果进行比较

library(MASS)
lm_fit <- lm(mpg ~ ., data = mtcars)
lm_fit_2 <- stepAIC(lm_fit)
lm_fit_2$call

lm(formula = mpg ~ wt + qsec + am, data = mtcars)