python - 在不平衡数据集中最大化多数类别的预测准确性

时间：2018-06-25 13:53:38

标签： python optimization classification data-science

在谈论不平衡的数据集时，大多数文章会提到最大化少数群体类别的预测（例如，用于欺诈检测）。我有一个不平衡的数据集（比率约为1:20）。我有兴趣在多数班上达到最高的预测准确性。我的工作是在Python中进行的。我研究过的可能解决方案是：

使用每种方法的优缺点是什么？我还能尝试其他方法吗？

答案 0 :(得分：0)

您正在以错误的方式思考。如果您关心的只是多数阶级，那么您就可以预测一切都属于多数阶级。您会正确地获得其中的100％。您可能会有很多误报，但您不在乎这些吗？

啊，如果您确实关心误报，那实际上意味着您实际上在乎少数群体。您正确预测的少数群体中的事情越多，您的假阳性就越少。

这是同一枚硬币的两个面。