如何消除负二项回归模型中的不重要因素?

时间:2018-01-03 14:21:06

标签: r regression

我使用R中的函数glm.nb()对负二项式回归进行建模。但是,某些因子和一些交互项对我的模型没有意义。如何删除无关紧要的因素以获得更好的负二项模型。下面显示了输出:

> summary(nb) 
  Call:
  glm.nb(formula = LOS ~ patient + age + obesity + race + miscarriage + 
  primigravida + age*procedure, data = db , link = "log",    
  init.theta = 3.193556108)

   Deviance Residuals: 
   Min       1Q   Median       3Q      Max  
-2.5905  -0.7482  -0.3547   0.1226   7.7317  

   Coefficients:
                                         Estimate Std. Error z value Pr(>|z|)    
   (Intercept)                           0.992085   0.089697  11.060  < 2e-16 ***
   patient                               0.645335   0.034131  -1.435 0.331313 
   raceNon-Bumiputera                   -0.154894   0.052383  -2.957 0.003107 ** 
   ageMiddle                             0.102854   0.090392   1.138 0.255178    
   ageElder                              0.055655   0.099996   0.557 0.577815    
   obesityYes                           -0.250358   0.145008  -1.727 0.084256 .  
   miscarriageMiscarried                -0.060868   0.022096  -2.755 0.005875 ** 
   primigravidaYoung                     0.015143   0.084857   0.178 0.858366    
   primigravidamiddle                    0.231431   0.105432   2.195 0.028159 *  
   primigravidaElder                     0.348212   0.125971   2.764 0.005706 ** 
   procedureabortion                     0.316578   0.432455   2.467 0.341234
   procedurecsection                     0.014367   0.006113  -1.673 0.032131 **
   ageMiddle:procedureabortion           0.035266   0.041567  -1.451 0.034786 **
   ageElder:procedurecsection            0.658313   0.412243   2.111 0.324342
   ageMiddle:procedureabortion           0.124248   0.233214   1.353 0.143533 
   ageElder:procedurecsection            0.236575   0.034353  -1.235 0.013543 **  

   Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

   (Dispersion parameter for Negative Binomial(3.1936) family taken to be 1)

       Null deviance: 5759.6  on 5381  degrees of freedom
   Residual deviance: 4852.7  on 5354  degrees of freedom
   AIC: 26956

   Number of Fisher Scoring iterations: 1


          Theta:  3.1936 
      Std. Err.:  0.0899 

   2 x log-likelihood:  -26897.5170 

1 个答案:

答案 0 :(得分:0)

简短的回答可能是:不要。在非互动术语中,ageobesity在任何因素级别与其余部分没有显着差异。但是,与age中的ageMiddle:procedureabortion进行了重要的互动。你不会错过那个,你很难解释和理解交互,而模型中没有原始术语本身。因此,只有肥胖在任何一个方面都不显着,但是请注意,肥胖通常很容易确定,并且p大约.08它会错过重要性,但在模型中可能仍然有用。

您应该检查的是,患者是患者身份证还是真正的数字。

你从远远超过5000次观察中获取了大约28个系数。为什么你认为,如果你留下一两个预测者,你的模型会更好?