如何处理分类中样本数量不均的问题?

时间:2018-09-29 04:41:28

标签: classification sample

假设我们有 2个标签:0 1

标签为 0 的数据为 1000 ,而标签为 1 的数据仅为 100 。 / p>

在这种情况下,分类训练将相对于标签0的结果偏差

在这种情况下可以做什么?

我们可以手动生成与标签1相对应的样本吗?

如果可以的话,如何验证所生成的样本具有与原始数据相同的特性/特征

1 个答案:

答案 0 :(得分:2)

请参见this aricle。 它涉及一种称为 SMOTE 的方法,该方法代表综合少数族裔过采样技术。 基本上,如果您有这样分布的数据(少量的红点,大量的绿点): enter image description here

您围绕现有样本合成了新样本: enter image description here

此方法是常用的方法之一,在上面链接的文章中对其进行了详细说明。还有其他一些更简单的方法,例如从多数类中删除一些数据点或复制少数类中的一些数据点。

图片取自文章。