Question

我正在使用mlr进行二进制分类的R中训练随机森林分类器。

我的课很平衡。

      0         1 
0.5162791 0.4837209

我已经通过各种方式调整了我的各种模型修改树的数量和mtry。

但是我在选择正确的精度指标并确定临界值时遇到了麻烦。

当前我有

tpr.test.mean  fpr.test.mean  fnr.test.mean  fpr.test.mean   acc.test.mean mmce.test.mean 
 0.7908072      0.2872358      0.2091928      0.2872358      0.7531250      0.2468750 

f1.test.mean 
0.7736447

如何确定班级的理想分界线？到目前为止，我发现45/55效果最好，但是有更好的方法吗？通常，哪种精度指标最适合二进制分类器？

Answer 1

F1通常是一个安全的选择。它不允许分类器通过100％的查全率或100％的精度来“欺骗”度量；由于谐波的原因，两者都需要并排增加以获得良好的结果。

当然，也有例外，例如重视召回比重视准确性（例如在癌症诊断中）。

因此，该指标应反映您最终要针对其进行优化的内容。

R中二进制分类的随机森林截断和准确性度量

1 个答案: