我有一个简单的glm模型:
glm.fit=glm(Retention2~Email+Pay.method, data=train, family = binomial)
所有DV和IV都是具有两个级别的分类变量。
glm
的结果是:
当我计算出谓词概率时,当Pay.Method为0时,概率值为1.000。语法和输出如下:
glm.fit.prob=predict(glm.fit, newdata = test2, type="response")
似乎无论何时pay.method ="EZ PAY"
,概率都是0.我在数学上认为原因是电子邮件的coeff
比截距和Pay.method小得多。我想知道我的理解是否正确,如果是的话,任何有关如何解决这个问题的见解?
答案 0 :(得分:0)
案件称为明确分离案件。当你有pay.method ="EZ PAY"
时,查看你的数据,然后几乎观察可能是零或几乎全部将是1.所以理想情况下你不需要模型来预测,因为你可以说没有模型的结果是0还是1(现在如果它的真实情况或由于缺乏数据是另一个问题)。最好从训练数据中删除这些案例然后训练模型(在你的情况下用pay.method ="EZ PAY"
删除所有观察结果。)
现在为什么会出现这种情况。 Logistic回归最大似然估计不是很好处理明确分离的情况;为了获得良好的报道,请参阅Hastie Tibshirani的统计学习书籍。他们还建议使用判别分析,因为它更适合处理此类情况。