我正在使用样本藻类数据来理解数据挖掘,我使用了以下命令:
> data(algae)
> algae <- algae[-manyNAs(algae),]
> clean.algae <-knnImputation(algae, k = 10)
> lm.a1 <- lm(a1 ~ ., data = clean.algae[, 1:12])
> summary(lm.a1)
随后我收到了以下结果,但是我找不到任何好的文件来解释这意味着什么,特别是Std。错误,t值和Pr。有人可以请你好好发光吗?最重要的是,我应该查看哪些变量来确定模型是否给我提供了良好的预测数据?
Call:
lm(formula = a1 ~ ., data = clean.algae[, 1:12])
Residuals:
Min 1Q Median 3Q Max
-37.679 -11.893 -2.567 7.410 62.190
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 42.942055 24.010879 1.788 0.07537 .
seasonspring 3.726978 4.137741 0.901 0.36892
seasonsummer 0.747597 4.020711 0.186 0.85270
seasonwinter 3.692955 3.865391 0.955 0.34065
sizemedium 3.263728 3.802051 0.858 0.39179
sizesmall 9.682140 4.179971 2.316 0.02166 *
speedlow 3.922084 4.706315 0.833 0.40573
speedmedium 0.246764 3.241874 0.076 0.93941
mxPH -3.589118 2.703528 -1.328 0.18598
mnO2 1.052636 0.705018 1.493 0.13715
Cl -0.040172 0.033661 -1.193 0.23426
NO3 -1.511235 0.551339 -2.741 0.00674 **
NH4 0.001634 0.001003 1.628 0.10516
oPO4 -0.005435 0.039884 -0.136 0.89177
PO4 -0.052241 0.030755 -1.699 0.09109 .
Chla -0.088022 0.079998 -1.100 0.27265
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 17.65 on 182 degrees of freedom
Multiple R-squared: 0.3731, Adjusted R-squared: 0.3215
F-statistic: 7.223 on 15 and 182 DF, p-value: 2.444e-12
答案 0 :(得分:1)
我不知道我是否可以在很大程度上回答这个问题,但我想尝试一下。
使用公式(此特定〜。),您试图在类型的模型中预测a1与所有其他变量:
a1 = b0 + b1*seasonspring + b2*seasonsummer ... + e
其中b0是截距,e是错误。列估计是“b”回归系数,t检验和p值试图说明这个系数是否具有统计学意义。例如,我们可以像这样阅读表中的一行
NO3
具有线性关系,有助于预测a1
,并且NO3的b_x系数是显着的,其概率小于0.001
等于零(粗略地说)。
用于衡量拟合优度的统计数据之一是R ^ 2
R-squared: 0.3731
Tha试图说,“我的模型解释了多少数据差异(再次,大致)”,在这种情况下,它非常糟糕,从0到1只有0.37。有更好的措施,这需要一点阅读...
您可以在此处找到详细说明 http://www.manning.com/kabacoff/