想知道低于它的哪个百分比,我们可以说这个课程不平衡?

时间:2016-11-03 23:24:15

标签: machine-learning classification data-mining cross-validation supervised-learning

我确信这里有人经历过这样的事情......我有一个包含4个类的数据集,其中一个是3%的表示,我认为它代表性不足,所以我做了一些重采样方法,但猜猜怎么了?它的分类精度没有变化,只有在没有重采样方法的情况下,分类精度仅为1%或2%! 所以我想知道数据中3%的类表示是否可以被认为是代表性不足?

1 个答案:

答案 0 :(得分:2)

如果我们有二进制问题,并且97%到3%的类,那么你总是通过预测第一个类来获得97%的正确率。因此,您可以获得的最大改进是3%。

而不是完全准确性,您应该考虑每个级别的准确性。如果3%是重要的对象(例如销售,你赚钱的地方),你可能只对这一类感兴趣。

一种简单的方法是加权平均准确度。在计算每个类的准确度的地方,然后是平均值。上面的“多数分类器”(总是预测大多数标签)将具有50%的加权准确度(大多数类总是正确预测,少数类总是不正确)。