将两个线性模型与R中的anova()进行比较

时间:2012-10-12 16:16:54

标签: r regression linear-regression anova

我不太明白这个输出中的p值意味着什么。我并不是指p值,但在这种情况下。

> Model 1: sl ~ le + ky 
> Model 2: sl ~ le   
  Res.Df     RSS Df   Sum of Sq      F Pr(>F) 
1     97 0.51113                              
2     98 0.51211 -1 -0.00097796 0.1856 0.6676

我得到类似的东西,现在我想知道哪种型号更合适。 由于只有一个而不是两个p值,我感到困惑。 我使用summary(model1)或summary(model2)获得不同的pvalues

现在如果

> fm2<-lm(Y~X+T)

(T是我的指标变量)和

> fm4<-lm(Y~X)

如果我这样做

> anova(fm2,fm4)

这测试零假设H0: alpha1==alpha2 (Ha: alpha1!=alpha2) c(alpha是我的拦截) 因此测试是否更好的是有一个拦截(=&gt; alpha1==alpha2)或两个拦截(alpha1!=alpha2

在这种情况下,我们现在显然会拒绝零假设,因为p值是0.6676。

这意味着我们应该坚持使用模型fm4,因为它更适合我们的数据。

我得出了正确的结论吗?我尽我所能,但我不确定p值意味着什么。由于只有,这是我认为它可能意味着什么。 有人可以清理一下吗?

1 个答案:

答案 0 :(得分:5)

你的意思是“明显拒绝零假设”(而不是“现在明显拒绝”)?鉴于你的其余问题,这似乎更有意义。

只有一个p值,因为有两个模型可供比较,因此只有一个比较(零假设与替代,或者实际上在这种情况下为零假设与未指定的替代)。它听起来就像你上面所说的那样le是一个连续的ky是一个分类预测器,在这种情况下,你正在比较一个模型与斜率和截距(如你所说)a具有单斜率和两个截距的模型。因为p值相对较大,这意味着数据不能提供ky的累加效应的证据。更简单的模型通常更合适(尽管要小心这个结论,因为构造p值是为了检验假设,而不是在模型中进行选择)。

每个模型的summary()得到的p值是每个模型中每个参数的效果的p值,取决于该模型中的所有其他参数。 如果您的数据完全平衡(在回归设计中不太可能),您应该从summaryanova得到相同的答案,否则{{1通常是优选的。

这个问题可能更适合http://stats.stackexchange.com,因为它实际上是关于统计解释而不是编程......