当与因变量不相关的自变量时的多元回归

时间:2017-09-28 00:49:06

标签: statistics regression

考虑多重回归,例如Y ~ X1 + X2 + X3, 你认为值得将多元回归模型拟合到数据中吗? 当cor(X1, Y)cor(X2, Y)cor(X3, Y)都是小值,例如0.2时, 此外,(X1, Y)(X2, Y)(X3, Y)的图表(线性,非线性)不相关?

总之,

  1. 当每个自变量与因变量不相关时(视觉线性和非线性),多元回归模型是否有可能给出显着的系数?

  2. 对于相同的数据,神经网络等非线性模型是否有可能提供良好的可预测结果?

2 个答案:

答案 0 :(得分:0)

在回答(1)时,可能当输入到多元回归时,具有低边际相关性的解释变量变得显着。例如,如果X1和X2彼此负相关并且两者都对Y产生正面影响,则Y和X1之间的关系可能会被X2的影响混淆(反之亦然)。

当控制模型中所有其他项的影响时,多次回归有效地估计响应与每个解释变量之间的关系,因此有效地消除了这种混淆。本文末尾的代码显示了一个假设的例子。

如上所述,您的低相关性似乎更有可能反映出您的解释变量不是您的反应的良好预测因素,而不是相互混淆的良好预测因子。只有一种方法可以找到答案。

在回答(2)的同时,可能非线性模型将提供比线性模型更好的预测准确性。然而,根据我的经验,如果您从一种模型类型预测精度较低,则其他模型类型不太可能表现良好。

这是我上面提到的示例代码:

# Make example data
X1 = rnorm(100)
X2 = -X1 + runif(100)/10 #X2 is negatively correlated with X1
Y = X1 + X2 + runif(100)

# Check correlations
cor(X1, Y) #should give low correlation
cor(X2, Y) # should give low correlation
cor(X1, X2) # should give high (negative) correlation

# Fit model and extract pvalues. Should find significant relationships between Y and X1 and X2 despite the low correlations
fit = lm(Y ~ X1 + X2) 
summary(fit)$coefficients[, "Pr(>|t|)"] # pvalues

答案 1 :(得分:0)

  1. 要使用多元回归模型,应检查绝对残差是否为正态分布,且均值应为0。 当因变量和自变量之间不相关时,可以对其进行转换:

    • log(x)或平方(x)。为此,数据集中将有一个新列。应使用qq-diagrams检查此新列的正态分布。如果是,请使用此列。 最后,您必须注意数据的解释,因为它们已转换。
  2. 要预测因变量,nn可以帮助您,但是您必须尝试不同的层并找到最低的均方误差。