我有一个数据框,其中包含来自客户和合约的一些特征,0和1显示是否发生了2008年至2017年期间的跌幅。我使用二项式模型来回归特征的下降概率。我有38000个不同的合同。
所以我使用像这样的二项式模型(R代码):
formule <- y ~ Niveau_gar_incapacite + Niv_indem_mens + Regrpt_franchise + Niveau_prime + Situation_familiale + Classe_age_chute + Grde_Region + Regrpt_strate + Taille_courtier + Commission + Retention + Anciennete + Regrpt_CSP + Regrpt_sinistres + Couplage
logit <- glm(Chute_commerciale~1, data=train, family=binomial(link="logit"))
selection_asc_AIC <- step(logit, direction="forward", trace=TRUE, k=2, scope=list(upper=formule))
经过一些测试以找到多重共线性,我做了对变量或术语分组的抵消。 我有这个结果:
GLM的结果
GLM 2的结果
对于零偏差和剩余偏差,此结果不正确。
我认为我的变量曝光就是问题所在。 事实上,我有不同年份的合同开始和结束。 所以我的曝光率可能是5.32或1.36,我有截断和审查。
如何在回归逻辑二项式中处理此变量曝光? 如果我按照曝光年份复制我的行,则存在观察无关的问题。