我有一个由15列和3000行组成的数据集,用于训练用于二进制分类的模型。 y(1:2)不平衡。两种结果(0,1)都同等重要。
下采样后(因为参数class_weight = balance不能正常工作),我使用了参数scoring =“ f1”,因为我读到这是ROC曲线旁边性能最好的度量。
问题是: 降采样后我仍将数据视为不平衡状态,因此应用f1还是可以恢复到正常精度?
f1 = 2 *(精度*召回率)/(精度+召回率)
提前加油! :)
答案 0 :(得分:0)
如果您已经重新平衡了数据,那么它就不会再失去平衡了,我认为将准确性用作成功指标没有问题。
精度可能会在非常偏斜的数据集中误导您,但由于它不再偏斜,因此它应该可以工作。