大样本量(180 万观察)的逻辑回归预测变量仅预测 0

时间:2021-02-09 08:26:09

标签: r logistic-regression

我正在尝试运行逻辑回归模型来预测个别贷款的违约概率。我有一个包含 185 万个观察值的大样本,其中大约 81% 已完全付清,其余为违约。我已经使用 20 多个具有统计意义的其他预测变量运行逻辑回归,并得到警告“发生拟合概率 0 或 1”,通过逐步添加预测变量,我发现只有 1 个预测变量导致了这个问题,即“年收入” (annual_inc)。我只用这个预测器进行了逻辑回归,发现它只预测 0(完全还清贷款),尽管有很大比例的违约贷款。我尝试了不同比例的训练和测试数据。如果我以将原始样本的 80% 分配给测试集,将 20% 分配给训练集的方式拆分模型,R 不会显示拟合概率警告,但模型仍然仅在测试集上预测为 0 .下面我附上相关的小代码以防万一。鉴于这种情况,我怀疑添加我的数据的一小部分样本是否有用,但如果我弄错了,请告诉我,我会添加它。

>set.seed(42)

>indexes <- sample(1:nrow(df), 0.8*nrow(df))
>df_test = df[indexes,]
>df_train = df[-indexes,]

>mymodel_2 <- glm(loan_status ~ annual_inc, data = df_train, family = 'binomial')
>summary(mymodel_2)

Call:
glm(formula = loan_status ~ annual_inc, family = "binomial", 
    data = df_train)

Deviance Residuals: 
  Min       1Q   Median       3Q      Max  
-0.6902  -0.6530  -0.6340  -0.5900   5.4533  

Coefficients:
                Estimate Std. Error z value Pr(>|z|)    
  (Intercept) -1.308e+00  8.290e-03 -157.83   <2e-16 ***
  annual_inc  -2.426e-06  9.382e-08  -25.86   <2e-16 ***
  ---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 352917  on 370976  degrees of freedom
Residual deviance: 352151  on 370975  degrees of freedom
AIC: 352155

Number of Fisher Scoring iterations: 4

>res <- predict(mymodel_2, df_test, type = "response")
>confmatrix <- table(Actual_value = df_test$loan_status, Predicted_value = res >0.5)
>confmatrix
            Predicted_value
Actual_value   FALSE
           0 1212481
           1  271426

此外,当我在互联网上搜索问题的解决方案时,我看到它经常被归因于完美分离,但我的案例预测只有0,而我看到的模拟案例样本量很小。到目前为止,我对实施惩罚逻辑回归犹豫不决,因为我认为我的问题不是完美分离。另外,值得指出的是,由于研究的特殊性,我想专门使用逻辑回归。我该如何解决手头的问题?

1 个答案:

答案 0 :(得分:0)

正如@deschen 建议的那样,我使用 ROSE 包中的 ROSE 重采样技术用于 R,它解决了我的问题,尽管过采样方法、欠采样方法以及两者的组合也能奏效。

相关问题