逻辑回归的残差图

时间:2019-09-26 05:11:25

标签: r logistic-regression

我正在实施一个两阶段的Logistic回归客户获取模型,想了解我在DHARMa R软件包的残差中观察到的特殊模式。

第一阶段模型是概率模型

selection_model <- glm(I(acquired > 0) ~ m * b + l + w + f,
                       data = aggregate_df,
                       family = binomial(link = "probit"))

然后我像这样添加逆铣削比:

aggregate_df$IMR = dnorm(selection_model$linear.predictors)/pnorm(selection_model$linear.predictors)

第二阶段模型具有相同的预测变量,除了反磨比率也被添加为预测变量。另外,我有兴趣查看那些总销售额超过X的客户。这是在二进制指标变量I(dollar_sales > X)中捕获的,这是我在第二阶段建模的结果。

model_logit <- glm(I(dollar_sales > X) ~ IMR + m * b + l + w + f + 
                                         I(f^2) + I(l^2),
                   data = aggregate_df,
                   family = binomial(link = "logit"))

然后我使用DHARMa软件包绘制该模型的残差,如下所示:

simulated_residuals = DHARMa::simulateResiduals(model_logit, n = 50)
plot(simulated_residuals)

我有以下问题:

  1. 为什么QQ图的底部和顶部有两个不相交的斑点?这是否令人担忧(如KS测试所示)?
  2. 除非有异常值,否则残留量与预测值的关系似乎还不错。这也是预期的行为吗

Residual plot from logistic regression

0 个答案:

没有答案