具有两个二元分类变量的逻辑回归

时间:2021-07-22 08:01:12

标签: r binary regression modeling rate

我正在尝试对两个变量之间的逻辑回归建模。 目标变量称为“收入”,它是一个二元变量,其中“是”表示确实发生了交易,“否”表示没有发生。 我使用的预测器是一个名为“周末”的变量,它也是二进制变量,其中“真”表示交易已在周末进行,“假”表示没有进行。 这是我遵循的程序:

glm.fit1=glm(default~balance, family=binomial, data=Default) 
glm.probs1=predict.glm(glm.fit1,type="response")
glm.pred1=rep("No",N)
glm.pred1[glm.probs1>.5]="Yes"
table(glm.pred1,Default$default) 
confMat1<-addmargins(table(glm.pred1,Default$default))
confMat1 
delta1=(confMat1[1,2]+confMat1[2,1])/N*100 # misclassification error rate
delta1

问题在于混淆矩阵的输出如下:

glm.pred1 FALSE TRUE  Sum
      No   6253 1144 7397
      Sum  6253 1144 7397

如您所见,没有“是”行。所以错误率 delta1 将是 100%(所有的预测都是错误的/错误分类的)。 所以我想知道代码/程序是否有问题,或者预测器是否只是做出“准确”预测的那么糟糕。 glm 的输出表明,与零偏差相比,残差偏差略有减少,因此可能是预测变量根本没有用(顺便说一下,p 值确实很低)。 有什么提示吗?

快速浏览一下数据库:

> head(online_shoppers_intention_train)
# A tibble: 6 x 19
     X1 Administrative Administrative_~ Informational Informational_D~ ProductRelated ProductRelated_~ BounceRates ExitRates PageValues
  <dbl>          <dbl>            <dbl>         <dbl>            <dbl>          <dbl>            <dbl>       <dbl>     <dbl>      <dbl>
1  9617              5             408.             2             47.5             54            1547.      0        0.0173        0   
2 12179             26            1562.             9            504.             183            9676.      0.0111   0.0142       19.6 
3  9905              4              58              2             28.5             82            4729.      0        0.0145        9.06
4  5745              3             103.             0              0               25            1109.      0        0.00167      61.3 
5 10067              7             165.             1             28.5            115            3428.      0        0.0163        4.97
6  7670             16             382.             3            199.              86            1618.      0.0151   0.0220        3.89
# ... with 9 more variables: SpecialDay <dbl>, Month <chr>, OperatingSystems <dbl>, Browser <dbl>, Region <dbl>, TrafficType <dbl>,
#   VisitorType <chr>, Weekend <lgl>, Revenue <lgl>

0 个答案:

没有答案