我有一个不平衡的数据集,它有两个类(+1
,-1
)。积极因素只占数据集的7%。
我想使用Desicion Trees进行分类。我尝试将负片下采样到:
对于所有这些我得到了几乎相同的精确度,但是对于第一个样本(负数与正数相同的负数),积极的召回要好得多。但我觉得我在这里遗漏了一些东西,所以这次采样有什么不好?
答案 0 :(得分:0)
对一个显性类进行下采样是相当普遍的。
但你需要确保解决实际问题。
如果您将课程下采样到1:1的比例,可能会使某些评估看起来不错,但这仍然反映现实吗?您对分类器进行了培训,以便在50%的病例中预测阳性,但只有3%为阳性。如果"误报"花了你很多钱,这可能是一个问题。