处理不平衡数据的样本权重与下采样

时间:2018-12-06 19:41:02

标签: machine-learning deep-learning data-science

假设您的数据集不平衡。在不考虑为其生成新数据的情况下,如何有效地处理它。我知道我们可以使用样本权重或向下采样。但是,在这两者之间,我不确定要选择哪个。另外,假设您需要在此不平衡数据上建立分类模型,这两种技术将如何不同地影响模型性能?

1 个答案:

答案 0 :(得分:2)

这完全取决于您是否对样本进行了下采样,还剩下多少数据观测值,以及下采样类别能有效容纳各种下采样类别的效率。 例如,您有1类,其中包括100个观察值,而2类则包含2000个观察值(1类为5%)。然后,由于没有足够的数据观测值来有效地实现模型,因此降采样将毫无意义。 100个观察结果很少。该模型将具有较高的训练误差。

但是,如果您有1类具有100,000个观测值,而2类具有2,000,000个(再次为5%),那么由于您有足够的观测值来训练模型,因此降采样仍然有意义。

因此答案完全取决于您拥有的数据类型。我个人会选择SMOTE。希望这会有所帮助。