我用3种不同的随机森林方法对不平衡数据进行了建模。然后,我在验证数据上测试了该模型,您可以在下面找到结果。对我来说,最重要的结果就是召回。当模型不会过拟合时,我需要最大召回率。我的1个变量的调用对我来说还可以,甚至可能下降几分。但是0变量的召回率很低。当我更改阈值时,我可以增加此值,但是此时1的召回率下降了很多。当不减少1个变量的召回率且模型不应该过拟合时,我需要提高此比率。
如您所见,由于我的0召回率,我的误报率非常高。
有人可以给我关于这个问题的建议吗?
VALIDATE DATA SCORE :
precision recall f1-score support
0 1.00 0.65 0.79 39093
1 0.09 0.94 0.17 1486