我正在使用似然比检验(在R中)在我的模型中寻找具有三个固定因子(地点,年份,栖息地)的主效应,如下所示:
model1<-glm(tot.mass~hab, data=biom, family = Gamma(link = "log"))
anova(model1, test="Chisq")
model2<-glm(tot.mass~year, data=biom, family = Gamma(link = "log"))
anova(model2, test="Chisq")
model3<-glm(tot.mass~site, data=biom, family = Gamma(link = "log"))
anova(model3, test="Chisq")
我被告知使用&#34; anova(model3,test =&#34; Chisq&#34;)&#34;我会发现(在这个例子中)是否添加了术语&#34; site&#34;显着改善了模型。根据我的理解,由于我的p值> 0.5,因此网站对我的模型没有显着影响(例如,这不是该响应变量的主效应)。我的输出如下:
Df Deviance Resid. Df Resid. Dev Pr(>Chi)
NULL 687 1681.2
site 2 16.543 685 1664.7 0.2884
我的问题是1)我是否正确地解释了这一点; 2)我将如何报告这些结果?我会报告Deviance和pvalue(&#34; Pr(&gt; Chi)&#34;)?
谢谢!
答案 0 :(得分:1)
在回答这个问题之前的一些评论,
1)请始终牢记,您在模型中测试术语的顺序在其统计意义中起着重要作用。发生这种情况是因为您按顺序将模型相互比较(例如,在您的情况下,您将NULL模型(无预测变量)与具有“site”作为唯一预测变量的模型进行比较)。如果添加一个额外的变量,则将仅包含“site”的模型与包含“site”和“some some variable”的模型进行比较。
2)记住这一点的一个简单方法是将偏差视为两个模型之间的“距离”(chisq只取正值),因此它们相距更远是两个模型,变量最后增加的可能性更大因为最后一个模型比前一个模型更优越。
3)当我谈论第一,第二,第三,......,最后一个模型时,我在谈论你在R的anova桌上看到的这些顺序。
4)这个问题最好放在统计部分。
现在在你的问题中,
Df Deviance Resid. Df Resid. Dev Pr(>Chi)
NULL 687 1681.2
site 2 16.543 685 1664.7 0.2884
1)鉴于上表,包含“site”的模型在您提到的置信水平上没有提供任何显着的改进(与NULL模型相比),这可能意味着变量“site”在给定的置信度下是统计无关紧要的等级,接近你的解释。
然而,如果你想要100%正确你从那个表得到的只是这个:“鉴于上面的表包含”site“的模型没有提供任何显着的改进(与NULL模型相比)的信心你提到的水平“。我认为这是问题的正确答案。
*也许如果您重新排列变量并首先添加其他变量然后“站点”,您可能会发现“站点”统计显着,但我认为这不太可能。(评论1)
*同样使用不同的模型(即后勤)可能会给你一个不同的结果。所以请记住,您正在测试的是,如果模型在统计上与另一个模型相比更好。例如,变量可能是响应的良好预测因子,但由于模型的功能形式不正确,您可能会推断变量在统计上无关紧要,这是错误的。
这是您解释此结果的方式。
2)您应该报告偏差16.543
,自由度DF=2
和p值0.2884