解释lm()摘要中的剩余价值陈述

时间:2012-08-28 09:23:55

标签: r linear-regression

我正在使用R在我收集的数据上创建一些线性模型(使用lm())。现在我对统计数据并不擅长,并且发现很难理解通过R生成的线性模型的总结。

我的意思是剩余价值:Min1QMedian3QMax

我的问题是:这些值意味着什么?如果我的模型好,我怎么能从这些值中知道?

这是我的一些剩余价值。

Min: -4725611 1Q:-2161468 median:-1352080  3Q:3007561 Max:6035077

1 个答案:

答案 0 :(得分:3)

线性回归的一个基本假设(特别是相关的假设检验)是残差是正态分布的,预期值为零。略微违反这一假设并不成问题,因为统计数据相当稳健。但是,分布应该至少是对称的。

判断正常性假设是否满满的最佳方法是绘制残差。有许多不同的诊断图,例如,您可以执行以下操作:

fit <- lm(y~x)
plot(fit)

这将为您提供残差与拟合值的关系图以及标准化残差的qq图。 summary(fit)给出的分位数对于快速检查残差是否对称非常有用。在那里,最小值和最大值并不重要,但中位数应接近零,第一和第三个四分位数应具有相似的绝对值。当然,只有拥有足够数量的值时,此检查才有意义。

如果残差不是正态分布,则有几种可能性来处理,例如,

  • 变换,
  • 广义线性模型,
  • 或非线性模型可能更合适。

有许多关于线性回归的好书,甚至还有一些很好的网络教程。我建议至少仔细阅读其中一个。