在谈论不平衡的数据集时,大多数文章会提到最大化少数群体类别的预测(例如,用于欺诈检测)。我有一个不平衡的数据集(比率约为1:20)。我有兴趣在多数班上达到最高的预测准确性。我的工作是在Python中进行的。我研究过的可能解决方案是:
使用每种方法的优缺点是什么?我还能尝试其他方法吗?
答案 0 :(得分:0)
您正在以错误的方式思考。如果您关心的只是多数阶级,那么您就可以预测一切都属于多数阶级。您会正确地获得其中的100%。您可能会有很多误报,但您不在乎这些吗?
啊,如果您确实关心误报,那实际上意味着您实际上在乎少数群体。您正确预测的少数群体中的事情越多,您的假阳性就越少。
这是同一枚硬币的两个面。