对于我的课程项目,我们应该对Framingham数据集使用拟合逻辑回归。
fit_select <- glm(Event~Sex+age.group+I(log(Cigar.Day+1))+BP.Med+Prev.Hyp+Diab+ I(log(Tol.Chol))+BMI+Gluc+bp.level, data= data, family = binomial(link="logit"))
当我们试图绘制偏差残差时,(我知道那些应该是二项式的,但我们有超过3000个观测值,所以通过CLT它们应该表现正常)
qqnorm(residuals(fit_select, type = "deviance"))
我们得到了
有什么问题?我不知道如何解释这一点。
答案 0 :(得分:1)
当我们试图绘制偏差残差时,(我知道那些是 应该是二项式,但我们有超过3000个观测值,所以CLT 那些应该表现正常)
当您有二进制响应时,它不应该是正常分布的。您需要计数数据才能获得正常的近似值。正如我记得的那样,粗略的经验法则是二项式和泊松模型的预期计数为5或更大。
有什么问题?我不知道如何解释这个。
当您有二元回复时,您无法使用该图表。