在不平衡数据集中最大化多数类别的预测准确性

时间:2018-06-25 13:53:38

标签: python optimization classification data-science

在谈论不平衡的数据集时,大多数文章会提到最大化少数群体类别的预测(例如,用于欺诈检测)。我有一个不平衡的数据集(比率约为1:20)。我有兴趣在多数班上达到最高的预测准确性。我的工作是在Python中进行的。我研究过的可能解决方案是:

  • 少数群体的过度采样
  • 更改某些分类模型的损失/成本矩阵

使用每种方法的优缺点是什么?我还能尝试其他方法吗?

1 个答案:

答案 0 :(得分:0)

您正在以错误的方式思考。如果您关心的只是多数阶级,那么您就可以预测一切都属于多数阶级。您会正确地获得其中的100%。您可能会有很多误报,但您不在乎这些吗?

啊,如果您确实关心误报,那实际上意味着您实际上在乎少数群体。您正确预测的少数群体中的事情越多,您的假阳性就越少。

这是同一枚硬币的两个面。