我正在实施一个两阶段的Logistic回归客户获取模型,想了解我在DHARMa R软件包的残差中观察到的特殊模式。
第一阶段模型是概率模型
selection_model <- glm(I(acquired > 0) ~ m * b + l + w + f,
data = aggregate_df,
family = binomial(link = "probit"))
然后我像这样添加逆铣削比:
aggregate_df$IMR = dnorm(selection_model$linear.predictors)/pnorm(selection_model$linear.predictors)
第二阶段模型具有相同的预测变量,除了反磨比率也被添加为预测变量。另外,我有兴趣查看那些总销售额超过X的客户。这是在二进制指标变量I(dollar_sales > X)
中捕获的,这是我在第二阶段建模的结果。
model_logit <- glm(I(dollar_sales > X) ~ IMR + m * b + l + w + f +
I(f^2) + I(l^2),
data = aggregate_df,
family = binomial(link = "logit"))
然后我使用DHARMa软件包绘制该模型的残差,如下所示:
simulated_residuals = DHARMa::simulateResiduals(model_logit, n = 50)
plot(simulated_residuals)
我有以下问题: