我正在建立一个随机森林分类模型,响应变量分割为98%(假)-2%(真)。我正在使用Scikit Learn的RandomForest分类器。
处理这种不平衡数据并避免过采样的最佳方法是什么?
答案 0 :(得分:0)
您可以使用参数class_weight
。
与{class_label: weight}
您可以为小班授予更多权重,并使用交叉验证找到最佳体重。
例如class_weight={1: 10, 0:1}
。给标有1的班级增加了更多的重量。
答案 1 :(得分:0)
在较新版本的sklearn的随机森林分类器中,您只需设置class_weight =“ balanced”。