过采样和欠采样以及平衡数据

时间:2018-04-20 09:28:51

标签: python prediction balance

我正在研究具有不平衡数据的预测模型,即我的目标变量的分布为10%= 1和90%= 0.

为了提高预测性能,通常建议进行平衡(过采样或欠采样)。

我想知道我是否需要平衡整个数据集或仅平衡训练集。如果重新平衡整个数据集,如果我使用过采样,我会重复观察,这意味着来自训练集的观察将重新出现在测试集中,从而人为地提高预测性能,对吧?

对于欠采样,我认为这无关紧要。

有什么想法吗?

1 个答案:

答案 0 :(得分:3)

您应该平衡训练数据集,但不需要平衡测试或验证集。如果您的系统训练有素,那么它将在测试/验证时间内正确处理不平衡的数据集。如果没有,那么它没有受过良好训练。此外,您希望评估实际性能,为此您需要测试实际数据。

如果您决定进行过采样,请务必添加一点随机噪声以减少重复项的影响。