不平衡数据集的采样率

时间:2017-12-04 11:49:54

标签: random machine-learning statistics classification statistical-sampling

我有一个不平衡的数据集,它有两个类(+1-1)。积极因素只占数据集的7%。

我想使用Desicion Trees进行分类。我尝试将负片下采样到:

  1. 相同大小的积极因素
  2. 积极因素的两倍或三倍。
  3. 对于所有这些我得到了几乎相同的精确度,但是对于第一个样本(负数与正数相同的负数),积极的召回要好得多。但我觉得我在这里遗漏了一些东西,所以这次采样有什么不好?

1 个答案:

答案 0 :(得分:0)

对一个显性类进行下采样是相当普遍的。

但你需要确保解决实际问题。

如果您将课程下采样到1:1的比例,可能会使某些评估看起来不错,但这仍然反映现实吗?您对分类器进行了培训,以便在50%的病例中预测阳性,但只有3%为阳性。如果"误报"花了你很多钱,这可能是一个问题。