Question

我有一个数据框，其中包含来自客户和合约的一些特征，0和1显示是否发生了2008年至2017年期间的跌幅。我使用二项式模型来回归特征的下降概率。我有38000个不同的合同。

所以我使用像这样的二项式模型（R代码）：

formule <- y ~ Niveau_gar_incapacite + Niv_indem_mens + Regrpt_franchise + Niveau_prime + Situation_familiale + Classe_age_chute + Grde_Region + Regrpt_strate + Taille_courtier + Commission + Retention + Anciennete + Regrpt_CSP + Regrpt_sinistres + Couplage

logit <- glm(Chute_commerciale~1, data=train, family=binomial(link="logit"))

selection_asc_AIC <- step(logit, direction="forward", trace=TRUE, k=2, scope=list(upper=formule))

经过一些测试以找到多重共线性，我做了对变量或术语分组的抵消。我有这个结果：

GLM的结果

results from GLM

GLM 2的结果

results from GLM 2

对于零偏差和剩余偏差，此结果不正确。

我认为我的变量曝光就是问题所在。事实上，我有不同年份的合同开始和结束。所以我的曝光率可能是5.32或1.36，我有截断和审查。

如何在回归逻辑二项式中处理此变量曝光？ 如果我按照曝光年份复制我的行，则存在观察无关的问题。

逻辑回归中的曝光变量

0 个答案: