应用错误收集

时间：2013-05-17 03:36:12

标签： statistics machine-learning

如果你有一个训练集，其中包含各种类的实例，那么它是非常不平衡的。你会用什么策略来平衡它？

有关真实世界人口的信息：7个类别，其中最小的占5％。

有关训练集的信息：频率与人口频率差异很大。

以下是两个选项：

对于偏见，我打算像SMOTE或成本敏感分类。

我不安全遵循哪种策略。我也愿意接受其他建议。您如何评估该战略的成功？

答案 0 :(得分：0)

正如您所提到的，对于培训，您有两种选择。要么平衡你的数据集（如果你有非常大量的数据和/或少量的功能，那么抛弃一些样本不会影响学习），或者根据频率对不同的类使用不同的权重。后者通常很简单，但取决于您选择的方法和库。

一旦训练了分类器（在训练集上有一些先验），如果您的先验变化（训练和人口中的频率不同），您可以轻松更新预测概率。有一个很好的概述如何替换先前的信息，这比我在短篇文章中解释它更好。请查看Combining probabilities，第3部分（替换先前信息）。