Question

我有一个简单的glm模型：

glm.fit=glm(Retention2~Email+Pay.method, data=train, family = binomial)

所有DV和IV都是具有两个级别的分类变量。

glm的结果是：

enter image description here

当我计算出谓词概率时，当Pay.Method为0时，概率值为1.000。语法和输出如下：

glm.fit.prob=predict(glm.fit, newdata = test2, type="response")

enter image description here

似乎无论何时pay.method ="EZ PAY"，概率都是0.我在数学上认为原因是电子邮件的coeff比截距和Pay.method小得多。我想知道我的理解是否正确，如果是的话，任何有关如何解决这个问题的见解？

Answer 1

案件称为明确分离案件。当你有pay.method ="EZ PAY"时，查看你的数据，然后几乎观察可能是零或几乎全部将是1.所以理想情况下你不需要模型来预测，因为你可以说没有模型的结果是0还是1（现在如果它的真实情况或由于缺乏数据是另一个问题）。最好从训练数据中删除这些案例然后训练模型（在你的情况下用pay.method ="EZ PAY"删除所有观察结果。）

现在为什么会出现这种情况。 Logistic回归最大似然估计不是很好处理明确分离的情况;为了获得良好的报道，请参阅Hastie Tibshirani的统计学习书籍。他们还建议使用判别分析，因为它更适合处理此类情况。

使用R中的逻辑回归预测概率等于1

1 个答案: