应用错误收集

处理不平衡类有很多策略。

首先，让我们了解（可能）发生了什么。您要求分类器最大限度地提高准确度：即正确分类的记录部分。例如，如果85％的记录属于A类，那么只需将所有内容标记为A类就可以获得85％的准确率。这似乎是分类器可以达到的最佳效果。

那么，你怎么能纠正这个？

1）您可以尝试在平衡的数据子集上训练您的模型。从多数类中随机抽样只有少数记录等于少数类中的记录。这将不允许您的分类器将所有内容标记为多数类。但它的代价是可用较少的信息来发现类边界的结构。

2）使用与准确度不同的优化指标。热门选择为AUC或F1 Score

3）使用方法1创建分类器集合。每个分类器将看到数据的子集并对类进行“投票”，可能具有一些置信度分数。这些分类器输出中的每一个都将是最终元分类器的特征（可能使用方法2构建）。这样您就可以访问所有可用信息。

这远不是一份详尽的解决方案清单。使用不平衡（或“倾斜”）数据集可能是一本完整的教科书。我建议阅读一些关于这个主题的论文。也许从here

开始