我不太明白这个输出中的p值意味着什么。我并不是指p值,但在这种情况下。
> Model 1: sl ~ le + ky
> Model 2: sl ~ le
Res.Df RSS Df Sum of Sq F Pr(>F)
1 97 0.51113
2 98 0.51211 -1 -0.00097796 0.1856 0.6676
我得到类似的东西,现在我想知道哪种型号更合适。 由于只有一个而不是两个p值,我感到困惑。 我使用summary(model1)或summary(model2)获得不同的pvalues
现在如果
> fm2<-lm(Y~X+T)
(T是我的指标变量)和
> fm4<-lm(Y~X)
如果我这样做
> anova(fm2,fm4)
这测试零假设H0: alpha1==alpha2
(Ha: alpha1!=alpha2)
c(alpha是我的拦截)
因此测试是否更好的是有一个拦截(=&gt; alpha1==alpha2
)或两个拦截(alpha1!=alpha2
)
在这种情况下,我们现在显然会拒绝零假设,因为p值是0.6676。
这意味着我们应该坚持使用模型fm4
,因为它更适合我们的数据。
我得出了正确的结论吗?我尽我所能,但我不确定p值意味着什么。由于只有,这是我认为它可能意味着什么。 有人可以清理一下吗?
答案 0 :(得分:5)
你的意思是“不明显拒绝零假设”(而不是“现在明显拒绝”)?鉴于你的其余问题,这似乎更有意义。
只有一个p值,因为有两个模型可供比较,因此只有一个比较(零假设与替代,或者实际上在这种情况下为零假设与未指定的替代)。它听起来就像你上面所说的那样le
是一个连续的ky
是一个分类预测器,在这种情况下,你正在比较一个模型与斜率和截距(如你所说)a具有单斜率和两个截距的模型。因为p值相对较大,这意味着数据不能提供ky
的累加效应的证据。更简单的模型通常更合适(尽管要小心这个结论,因为构造p值是为了检验假设,而不是在模型中进行选择)。
每个模型的summary()
得到的p值是每个模型中每个参数的效果的p值,取决于该模型中的所有其他参数。 如果您的数据完全平衡(在回归设计中不太可能),您应该从summary
和anova
得到相同的答案,否则{{1通常是优选的。
这个问题可能更适合http://stats.stackexchange.com,因为它实际上是关于统计解释而不是编程......