如何在随机森林中建立自己的概率阈值?

时间:2016-12-31 09:14:22

标签: python machine-learning random-forest threshold

我使用python在具有二进制目标类的不平衡数据集上运行随机林。我想将默认概率阈值0.5更改为另一个值以提高调用和精度。到目前为止,我找不到任何可用于执行此任务的已定义方法或类。任何人都可以请一个方法或它是否意味着我应该自己编码?干杯

1 个答案:

答案 0 :(得分:1)

scikit-learn的RandomForestClassifier没有固定的阈值来指定一个类来进行采样。正如您在RandomForestClassifier.predict的源代码中看到的那样,它只返回最可能的类。当然你可以使用@thiom建议的方法,但我很难想象这会提高精确度和召回率。

例如,如果您选择的阈值为0.7且类概率为0.6和0.4,您指定哪个类?完全没有?

作为替代方案,您可以尝试使用RandomForestClassifier的class_weight选项来加重您未充分代表的课程。