我使用python在具有二进制目标类的不平衡数据集上运行随机林。我想将默认概率阈值0.5更改为另一个值以提高调用和精度。到目前为止,我找不到任何可用于执行此任务的已定义方法或类。任何人都可以请一个方法或它是否意味着我应该自己编码?干杯
答案 0 :(得分:1)
scikit-learn的RandomForestClassifier没有固定的阈值来指定一个类来进行采样。正如您在RandomForestClassifier.predict的源代码中看到的那样,它只返回最可能的类。当然你可以使用@thiom建议的方法,但我很难想象这会提高精确度和召回率。
例如,如果您选择的阈值为0.7且类概率为0.6和0.4,您指定哪个类?完全没有?
作为替代方案,您可以尝试使用RandomForestClassifier的class_weight
选项来加重您未充分代表的课程。