Question

我预计我在这里会遗漏一些明显的东西。

我正在尝试建立一个过度拟合的演示。我有一个二次生成函数，我从中绘制了20个样本，我现在想要将增加程度的多项式线性模型拟合到采样数据中。

出于某种原因，无论我使用哪种模型，每次运行predict时我都会得到N个预测，其中N是用于训练模型的记录数。

set.seed(123)
N=20
xv = seq(1,5,length.out=1e4)
x=sample(xv,N)
gen=function(v){v^2 + 2*rnorm(length(v))}
y=gen(x)
df = data.frame(x,y)

# convenience function for building formulas for polynomial regression
build_formula = function(N){ 
  fpart = paste(lapply(2:N, function(i) {paste('+ poly(x,',i,',raw=T)')}  ), collapse="")
  paste('y~x',fpart)
}
## Example:
## build_formula(4)="y~x + poly(x, 2 ,raw=T)+ poly(x, 3 ,raw=T)+ poly(x, 4 ,raw=T)"



model = lm(build_formula(10), data=df)
predict(model, data=xv) # returns 20 values instead of 1000
predict(model, data=1)  # even *this* spits out 20 results. WTF?

无论公式中多项式的次数如何，都会出现此行为，包括琐碎的案例'y~x'：

formulas = sapply(c(2,10,20), build_formula)
formulas = c('y~x', formulas)
pred = lapply(formulas
              ,function(f){
                predict(
                  lm(f, data=df)
                  ,data=xv)
              })

lapply(pred, length) # 4 x 20 predictions, expecting 4 x 1000

# unsuccessful sanity check
m1 = lm('y~x', data=df)
predict(m1,data=xv)

这让我疯了。我做错了什么？

Answer 1

predict的第二个参数是newdata，而不是data。

此外，您不需要在模型公式中多次调用poly; poly(N)将与poly(N-1)以及所有其他人共线。

另外^ 2，要使用xv生成一系列预测，您必须将其放在具有相应名称的数据框中：data.frame(x=xv)。

与线性回归预期的预测数量不同

1 个答案: