这些摘要数据意味着什么?

时间:2013-05-16 23:32:34

标签: r data-mining linear-regression

我正在使用样本藻类数据来理解数据挖掘,我使用了以下命令:

> data(algae)
> algae <- algae[-manyNAs(algae),]
> clean.algae <-knnImputation(algae, k = 10)
> lm.a1 <- lm(a1 ~ ., data = clean.algae[, 1:12])
> summary(lm.a1)

随后我收到了以下结果,但是我找不到任何好的文件来解释这意味着什么,特别是Std。错误,t值和Pr。有人可以请你好好发光吗?最重要的是,我应该查看哪些变量来确定模型是否给我提供了良好的预测数据?

Call:
lm(formula = a1 ~ ., data = clean.algae[, 1:12])

Residuals:
    Min      1Q  Median      3Q     Max 
-37.679 -11.893  -2.567   7.410  62.190 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)   
(Intercept)  42.942055  24.010879   1.788  0.07537 . 
seasonspring  3.726978   4.137741   0.901  0.36892   
seasonsummer  0.747597   4.020711   0.186  0.85270   
seasonwinter  3.692955   3.865391   0.955  0.34065   
sizemedium    3.263728   3.802051   0.858  0.39179   
sizesmall     9.682140   4.179971   2.316  0.02166 * 
speedlow      3.922084   4.706315   0.833  0.40573   
speedmedium   0.246764   3.241874   0.076  0.93941   
mxPH         -3.589118   2.703528  -1.328  0.18598   
mnO2          1.052636   0.705018   1.493  0.13715   
Cl           -0.040172   0.033661  -1.193  0.23426   
NO3          -1.511235   0.551339  -2.741  0.00674 **
NH4           0.001634   0.001003   1.628  0.10516   
oPO4         -0.005435   0.039884  -0.136  0.89177   
PO4          -0.052241   0.030755  -1.699  0.09109 . 
Chla         -0.088022   0.079998  -1.100  0.27265   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 17.65 on 182 degrees of freedom
Multiple R-squared:  0.3731,    Adjusted R-squared:  0.3215 
F-statistic: 7.223 on 15 and 182 DF,  p-value: 2.444e-12

1 个答案:

答案 0 :(得分:1)

我不知道我是否可以在很大程度上回答这个问题,但我想尝试一下。

使用公式(此特定〜。),您试图在类型的模型中预测a1与所有其他变量:

a1 = b0 + b1*seasonspring + b2*seasonsummer ... + e

其中b0是截距,e是错误。列估计是“b”回归系数,t检验和p值试图说明这个系数是否具有统计学意义。例如,我们可以像这样阅读表中的一行

  

NO3具有线性关系,有助于预测a1,并且NO3的b_x系数是显着的,其概率小于0.001等于零(粗略地说)。

用于衡量拟合优度的统计数据之一是R ^ 2

R-squared:  0.3731

Tha试图说,“我的模型解释了多少数据差异(再次,大致)”,在这种情况下,它非常糟糕,从0到1只有0.37。有更好的措施,这需要一点阅读...

您可以在此处找到详细说明 http://www.manning.com/kabacoff/