我正在研究具有不平衡数据的预测模型,即我的目标变量的分布为10%= 1和90%= 0.
为了提高预测性能,通常建议进行平衡(过采样或欠采样)。
我想知道我是否需要平衡整个数据集或仅平衡训练集。如果重新平衡整个数据集,如果我使用过采样,我会重复观察,这意味着来自训练集的观察将重新出现在测试集中,从而人为地提高预测性能,对吧?
对于欠采样,我认为这无关紧要。
有什么想法吗?
答案 0 :(得分:3)
您应该平衡训练数据集,但不需要平衡测试或验证集。如果您的系统训练有素,那么它将在测试/验证时间内正确处理不平衡的数据集。如果没有,那么它没有受过良好训练。此外,您希望评估实际性能,为此您需要测试实际数据。
如果您决定进行过采样,请务必添加一点随机噪声以减少重复项的影响。