R中的OLS回归

时间:2018-07-05 20:48:58

标签: r regression combinations

我真的很努力使用R解决以下问题 。 我想模拟一个数据集,该数据集具有一个通常为i.d的因变量和20个独立变量。每个变量应具有100个观察值。 (我设法做到了这一点)

(现在我正在努力的部分): 我的计划是使用自己的编码回归函数对最多5个回归器的所有可能组合进行自动回归,该函数模拟使用向量y和矩阵或向量x作为输入的summary(lm)的输出(因此my.lm( y,x))。然后将结果放入合适的数据结构中。

每一个提示我都会感激不尽!

1 个答案:

答案 0 :(得分:1)

我怀疑您正在尝试做的事情是否合理,但是事情就这样了。
由于您尚未发布数据集,因此我将组成一个数据集。

my.lm <- function(x, y, n = 5){
  f <- function(inx){
    inx_cols <- Combn[inx, ]
    inx_cols <- inx_cols[inx_cols != 0]
    X <- as.data.frame(x[, inx_cols])
    names(X) <- paste0("X", inx_cols)
    X <- cbind(X, y)
    name_y <- names(X)[length(names(X))]
    fmla <- as.formula(paste(name_y, ".", sep = "~"))
    tryCatch(lm(fmla, data = X), error = function(e) e)
  }

  nc_x <- ncol(x)
  nr <- sum(choose(nc_x, seq_len(n)))
  Combn <- matrix(0, nrow = nr, ncol = n)
  first <- 1
  for(i in seq_len(n)){
    last <- first + choose(nc_x, i) - 1
    Combn[first:last, seq_len(i)] <- t(combn(nc_x, i))
    first <- last + 1
  }

  apply(Combn, 1, f)
}

set.seed(6876)

regr <- replicate(20, rnorm(100))
coefs <- sample(-5:5, 20, TRUE)
resp <- regr %*% coefs + rnorm(100)

lm_list <- my.lm(regr, resp)
length(lm_list)
#[1] 21699

因此上面的函数产生了预期的尽可能多的对象。
在继续之前,让我们看看有多少错误(例如奇异矩阵)。

err_list <- lapply(lm_list, function(x){
  if(inherits(x, "error")) x else NULL
})
err_list <- err_list[!sapply(err_list, is.null)]
length(err_list)
#[1] 0

没有错误。
因此,获取类"lm"的对象的摘要。

good_list <- lapply(lm_list, function(x){
  if(inherits(x, "lm")) x else NULL
})
good_list <- good_list[!sapply(good_list, is.null)]

smry_list <- lapply(good_list, summary)
smry_list[[1]]
#
#Call:
#  lm(formula = fmla, data = X)

#Residuals:
#    Min      1Q  Median      3Q     Max 
#-34.654  -9.487  -1.985   9.486  50.213 

#Coefficients:
#                Estimate Std. Error t value Pr(>|t|)    
#(Intercept)       0.6449     1.5237   0.423    0.673    
#X1               -7.3969     1.5074  -4.907 3.68e-06 ***
#  ---
#  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
#Residual standard error: 15.02 on 98 degrees of freedom
#Multiple R-squared:  0.1972,   Adjusted R-squared:  0.189 
#F-statistic: 24.08 on 1 and 98 DF,  p-value: 3.684e-06