假设我们有 2个标签:0 和 1 。
标签为 0 的数据为 1000 ,而标签为 1 的数据仅为 100 。 / p>
在这种情况下,分类训练将相对于标签0的结果偏差。
在这种情况下可以做什么?
我们可以手动生成与标签1相对应的样本吗?
如果可以的话,如何验证所生成的样本具有与原始数据相同的特性/特征?
答案 0 :(得分:2)
请参见this aricle。 它涉及一种称为 SMOTE 的方法,该方法代表综合少数族裔过采样技术。 基本上,如果您有这样分布的数据(少量的红点,大量的绿点):
此方法是常用的方法之一,在上面链接的文章中对其进行了详细说明。还有其他一些更简单的方法,例如从多数类中删除一些数据点或复制少数类中的一些数据点。
图片取自文章。