训练集平衡策略

时间:2013-05-17 03:36:12

标签: statistics machine-learning

如果你有一个训练集,其中包含各种类的实例,那么它是非常不平衡的。你会用什么策略来平衡它?

有关真实世界人口的信息:7个类别,其中最小的占5%。

有关训练集的信息:频率与人口频率差异很大。

以下是两个选项:

  • 将其偏向人口类频率。
  • 将其偏向均匀分布。

对于偏见,我打算像SMOTE或成本敏感分类。

我不安全遵循哪种策略。我也愿意接受其他建议。您如何评估该战略的成功?

1 个答案:

答案 0 :(得分:0)

正如您所提到的,对于培训,您有两种选择。要么平衡你的数据集(如果你有非常大量的数据和/或少量的功能,那么抛弃一些样本不会影响学习),或者根据频率对不同的类使用不同的权重。后者通常很简单,但取决于您选择的方法和库。

一旦训练了分类器(在训练集上有一些先验),如果您的先验变化(训练和人口中的频率不同),您可以轻松更新预测概率。有一个很好的概述如何替换先前的信息,这比我在短篇文章中解释它更好。请查看Combining probabilities,第3部分(替换先前信息)。