逻辑回归中的曝光变量

时间:2017-09-04 12:47:12

标签: r logistic-regression glm exposure

我有一个数据框,其中包含来自客户和合约的一些特征,0和1显示是否发生了2008年至2017年期间的跌幅。我使用二项式模型来回归特征的下降概率。我有38000个不同的合同。

所以我使用像这样的二项式模型(R代码):

formule <- y ~ Niveau_gar_incapacite + Niv_indem_mens + Regrpt_franchise + Niveau_prime + Situation_familiale + Classe_age_chute + Grde_Region + Regrpt_strate + Taille_courtier + Commission + Retention + Anciennete + Regrpt_CSP + Regrpt_sinistres + Couplage

logit <- glm(Chute_commerciale~1, data=train, family=binomial(link="logit"))

selection_asc_AIC <- step(logit, direction="forward", trace=TRUE, k=2, scope=list(upper=formule))

经过一些测试以找到多重共线性,我做了对变量或术语分组的抵消。 我有这个结果:

GLM的结果

results from GLM

GLM 2的结果

results from GLM 2

对于零偏差和剩余偏差,此结果不正确。

我认为我的变量曝光就是问题所在。 事实上,我有不同年份的合同开始和结束。 所以我的曝光率可能是5.32或1.36,我有截断和审查。

如何在回归逻辑二项式中处理此变量曝光? 如果我按照曝光年份复制我的行,则存在观察无关的问题。

0 个答案:

没有答案