我正在使用mlr进行二进制分类的R中训练随机森林分类器。
我的课很平衡。
0 1
0.5162791 0.4837209
我已经通过各种方式调整了我的各种模型 修改树的数量和mtry。
但是我在选择正确的精度指标并确定临界值时遇到了麻烦。
当前我有
tpr.test.mean fpr.test.mean fnr.test.mean fpr.test.mean acc.test.mean mmce.test.mean
0.7908072 0.2872358 0.2091928 0.2872358 0.7531250 0.2468750
f1.test.mean
0.7736447
如何确定班级的理想分界线?到目前为止,我发现45/55效果最好,但是有更好的方法吗?通常,哪种精度指标最适合二进制分类器?
答案 0 :(得分:3)
F1通常是一个安全的选择。它不允许分类器通过100%的查全率或100%的精度来“欺骗”度量;由于谐波的原因,两者都需要并排增加以获得良好的结果。
当然,也有例外,例如重视召回比重视准确性(例如在癌症诊断中)。
因此,该指标应反映您最终要针对其进行优化的内容。