有人可以从统计上向天真解释Multiple R-squared
和Adjusted R-squared
之间的差异是什么吗?我正在进行单变量回归分析如下:
v.lm <- lm(epm ~ n_days, data=v)
print(summary(v.lm))
结果:
Call:
lm(formula = epm ~ n_days, data = v)
Residuals:
Min 1Q Median 3Q Max
-693.59 -325.79 53.34 302.46 964.95
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2550.39 92.15 27.677 <2e-16 ***
n_days -13.12 5.39 -2.433 0.0216 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746, Adjusted R-squared: 0.1451
F-statistic: 5.921 on 1 and 28 DF, p-value: 0.0216
答案 0 :(得分:60)
调整后的R平方的“调整”与变量的数量和观察的数量有关。
如果你不断向你的模型添加变量(预测变量),R平方将会改善 - 也就是说,预测变量似乎可以解释方差 - 但是其中一些改进可能仅仅是因为偶然性。因此调整后的R平方试图通过考虑比率(N-1)/(N-k-1)来校正这一点,其中N =观测数量和k =变量数量(预测变量)。
在你的情况下,这可能不是一个问题,因为你只有一个变量。
一些参考文献:
答案 1 :(得分:8)
调整后的R平方接近但不同于R2的值。它不是基于所解释的平方和SSR和总平方和SSY,而是基于总方差(我们通常不计算的数量),s2T = SSY /(n-1)和误差方差MSE (来自ANOVA表)并且计算如下:调整后的R平方=(s2T-MSE)/ s2T。
这种方法为判断由于添加解释变量而导致的拟合改善提供了更好的基础,但它没有R2所具有的简单总结解释。
如果我没有犯错,你应该验证调整后的R平方和R平方的值如下:
s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T
另一方面,R2为:SSR / SSY,其中SSR = SSY - SSE
attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- SSR / SSY
答案 2 :(得分:7)
R平方不依赖于模型中的变量数。调整后的R平方为。
调整后的R平方增加了向模型添加变量的惩罚,这些变量与您尝试解释的变量不相关。您可以使用它来测试变量是否与您尝试解释的事物相关。
调整后的R平方是R平方,加上一些除法使其依赖于模型中变量的数量。
答案 3 :(得分:2)
请注意,除了预测变量的数量之外,上面的调整后的R平方公式也会调整样本量。一个小样本会给出一个看似大的R平方。
平阴&amp; Xitao Fan,J。of Experimental Education 69(2):203-224,“估计多元回归中的R平方收缩”,比较了调整r平方的不同方法,并得出结论,上面引用的常用方法并不好。他们推荐Olkin&amp;普拉特公式。
然而,我已经看到一些迹象表明人口规模比任何这些公式表明的影响要大得多。我不相信这些公式中的任何一个都足以让您比较使用非常不同的样本大小进行的回归(例如,2,000和200,000个样本;标准公式几乎不会进行基于样本大小的调整)。我会做一些交叉验证来检查每个样本的r平方。