我正在研究数据分析实验室,我们必须从数据集中生成最佳模型进行预测。
根据我的理解,包含交互项(二次项)作为预测变量的回归模型以及线性项比仅使用线性项的相应模型更通用。
何时只使用线性项比使用两者更好?
我的印象是,如果单个术语不是很相关,那么添加更多与它们相关的术语就会使数据混乱。是这样的吗?我不确定我是否理解这个概念。
答案 0 :(得分:-1)
有很多细节可以提供,但我会继续作出简短回应。将演示一些非常简单的R代码并使用Adjusted R squared:
x <- c(3, 4, 5, 7, 10)
y <- c(5, 8, 9, 11, 18)
plot(x, y)
yfit <- lm(y ~ x)
rsquaredfit <- summary(yfit)$adj.r.squared
rsquaredfit
yfitquad <- lm(y ~ x + I(x ^ 2))
yfitquad
rsquaredfitquad <- summary(yfitquad)$adj.r.squared
rsquaredfitquad
注意具有二次项的模型的较低调整后的R平方。在这里,真正的关系显然是线性的,而二次项则过度拟合。