应用错误收集

时间：2018-09-29 04:41:28

标签： classification sample

假设我们有 2个标签：0 和 1 。

标签为 0 的数据为 1000 ，而标签为 1 的数据仅为 100 。 / p>

在这种情况下，分类训练将相对于标签0的结果偏差。

在这种情况下可以做什么？

我们可以手动生成与标签1相对应的样本吗？

如果可以的话，如何验证所生成的样本具有与原始数据相同的特性/特征？

答案 0 :(得分：2)

请参见this aricle。它涉及一种称为 SMOTE 的方法，该方法代表综合少数族裔过采样技术。基本上，如果您有这样分布的数据（少量的红点，大量的绿点）：

您围绕现有样本合成了新样本：

此方法是常用的方法之一，在上面链接的文章中对其进行了详细说明。还有其他一些更简单的方法，例如从多数类中删除一些数据点或复制少数类中的一些数据点。

图片取自文章。