Question

当我在我的glm模型中使用交互加上family = binomial参数时以及当我将其遗漏时，我有一个关于重要性和重要性差异的问题。我对逻辑回归很陌生，过去只进行了更简单的线性回归。

我有树木年轮观察的数据集，两个分类解释变量（治疗和原点 >）。治疗变量是一个实验性干旱治疗，有四个级别（控制，第一次干旱，第二次干旱和两次干旱）。 Origin变量有三个级别，指的是树的原点（给定代码颜色表示不同的来源为红色，黄色和蓝色）。我的观察结果是否存在生长环（ 1 =存在生长环，0 =没有生长环）。

就我而言，我对治疗的效果，Origin的效果以及治疗和起源的可能相互作用感兴趣。

有人建议二项Logistic回归是分析这个数据集的好方法。（希望这是合适的？也许有更好的方法？）

我有n = 5（每个原始治疗组合有5个观察结果。因此，例如，对照治疗蓝色原生树的5个生长环观察结果，对照治疗黄色原始树的5个观察结果等）因此，总共有60个数据集中的年轮观测值。

在R中，我使用的代码是glm（）函数。我将其设置如下：growthring_model＆lt; - glm（growthringobs~Dreatment + Origin + Treatment：Origin，data = growthringdata，family = binomial（link =＆＃34; logit＆＃34;））

我已经考虑了我的解释变量，因此控制处理和蓝色原点树是我的参考。

我注意到当我离开＆＃34; family = binomial＆＃34;在代码中的参数，它给出了我在给定数据结果时合理预期的p值。但是，当我添加＆＃34; family = binomial＆＃34;参数，p值为1或非常接近1（例如，1,0.98,0.99）。这看起来很奇怪。我可以看到它的重要性很低，但是根据我的实际数据，这些值接近于1会让我产生怀疑。如果我运行模型而不使用＆＃34; family = binomial＆＃34;论证，我得到的p值似乎更有意义（即使它们仍然相对较高/无关紧要）。

有人可以帮助我理解二项式论证如何改变我的结果吗？（我知道它指的是分布，即我的观察结果是1或0）究竟是什么它改变了模型？这是样本量小的结果吗？我的代码中有什么东西吗？也许那些非常高的值是正确的（或不是？）？

以下是我的模型摘要的读数，其中包含二项式参数：呼叫： glm（公式=生长〜治疗+起源+治疗：起源， family =二项式（link =＆＃34; logit＆＃34;），data = growthringdata）

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-1.79412  -0.00005  -0.00005  -0.00005   1.79412  

Coefficients:
                                       Estimate Std. Error z value Pr(>|z|)
(Intercept)                          -2.057e+01  7.929e+03  -0.003    0.998
TreatmentFirst Drought               -9.931e-11  1.121e+04   0.000    1.000
TreatmentSecond Drought               1.918e+01  7.929e+03   0.002    0.998
TreatmentTwo Droughts                -1.085e-10  1.121e+04   0.000    1.000
OriginYellow                          1.918e+01  7.929e+03   0.002    0.998
OriginRed                            -1.045e-10  1.121e+04   0.000    1.000
TreatmentFirst Drought:OriginYellow  -1.918e+01  1.373e+04  -0.001    0.999
TreatmentSecond Drought:OriginYellow -1.739e+01  7.929e+03  -0.002    0.998
TreatmentTwo Droughts:OriginYellow   -1.918e+01  1.373e+04  -0.001    0.999
TreatmentFirst Drought:OriginRed      1.038e-10  1.586e+04   0.000    1.000
TreatmentSecond Drought:OriginRed     2.773e+00  1.121e+04   0.000    1.000
TreatmentTwo Droughts:OriginRed       2.016e+01  1.373e+04   0.001    0.999

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 57.169  on 59  degrees of freedom
Residual deviance: 28.472  on 48  degrees of freedom
AIC: 52.472

Number of Fisher Scoring iterations: 19

这里是没有二项式参数的模型摘要的读出：呼叫： glm（公式=生长〜治疗+起源+治疗：起源，数据=生长数据）

Deviance Residuals: 
Min      1Q  Median      3Q     Max  
-0.8     0.0     0.0     0.0     0.8  

Coefficients:
                                   Estimate Std. Error t value Pr(>|t|)  
(Intercept)                          -4.278e-17  1.414e-01   0.000           1.0000  
TreatmentFirst Drought                3.145e-16  2.000e-01   0.000   1.0000  
TreatmentSecond Drought               2.000e-01  2.000e-01   1.000   0.3223  
TreatmentTwo Droughts                 1.152e-16  2.000e-01   0.000   1.0000  
OriginYellow                          2.000e-01  2.000e-01   1.000   0.3223  
OriginRed                             6.879e-17  2.000e-01   0.000   1.0000  
TreatmentFirst Drought:OriginYellow  -2.000e-01  2.828e-01  -0.707   0.4829  
TreatmentSecond Drought:OriginYellow  2.000e-01  2.828e-01   0.707   0.4829  
TreatmentTwo Droughts:OriginYellow   -2.000e-01  2.828e-01  -0.707   0.4829  
TreatmentFirst Drought:OriginRed     -3.243e-16  2.828e-01   0.000   1.0000  
TreatmentSecond Drought:OriginRed     6.000e-01  2.828e-01   2.121   0.0391 *
TreatmentTwo Droughts:OriginRed       4.000e-01  2.828e-01   1.414   0.1638  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for gaussian family taken to be 0.1)

    Null deviance: 8.9833  on 59  degrees of freedom
Residual deviance: 4.8000  on 48  degrees of freedom
AIC: 44.729

Number of Fisher Scoring iterations: 2

（我提前为我的问题可能的简单性道歉。我已经尝试阅读逻辑回归并尝试遵循一些例子。但我一直在努力寻找解决我特定情况的答案）

非常感谢。

Answer 1

与上述Gregor的评论一致，可以将其解释为编程问题。如果省略family = binomial，则函数glm()将使用默认值family = gaussian，这意味着一个标识链接函数，并假定存在正常的同调错误。另请参见?glm。

在这里可能会违反正常和/或同等误差的假设。因此，此处显示的第二个模型的标准误差和p值可能不正确。

具有分类预测因子和相互作用的二项Logistic回归（二项式族参数和p值差异）

1 个答案: