R中二进制分类的随机森林截断和准确性度量

时间:2018-08-26 19:43:17

标签: r classification random-forest mlr

我正在使用mlr进行二进制分类的R中训练随机森林分类器。

我的课很平衡。

      0         1 
0.5162791 0.4837209 

我已经通过各种方式调整了我的各种模型 修改树的数量和mtry。

但是我在选择正确的精度指标并确定临界值时遇到了麻烦。

当前我有

tpr.test.mean  fpr.test.mean  fnr.test.mean  fpr.test.mean   acc.test.mean mmce.test.mean 
 0.7908072      0.2872358      0.2091928      0.2872358      0.7531250      0.2468750 

f1.test.mean 
0.7736447 

如何确定班级的理想分界线?到目前为止,我发现45/55效果最好,但是有更好的方法吗?通常,哪种精度指标最适合二进制分类器?

1 个答案:

答案 0 :(得分:3)

F1通常是一个安全的选择。它不允许分类器通过100%的查全率或100%的精度来“欺骗”度量;由于谐波的原因,两者都需要并排增加以获得良好的结果。

当然,也有例外,例如重视召回比重视准确性(例如在癌症诊断中)。

因此,该指标应反映您最终要针对其进行优化的内容。