不平衡数据集:过采样与重复

时间:2017-09-06 17:17:52

标签: machine-learning artificial-intelligence classification resampling

我在高度非平衡数据集上面临机器学习任务。

由于最小的类只有很少的例子(大概是2百w.r.t到最大的20万)。我需要执行过采样(更准确地说,我会对较小的类进行过采样,并将较大的类重采样为示例的中间值,但这超出了本问题的范围。)

现在,我有两个选择:

1)随机样本(当然还有替换)来自最小班级的例子

2)重复n次来自最小班级的例子

关于哪种方法是最好的方法?

提前致谢。

1 个答案:

答案 0 :(得分:0)

正如穆罕默德·阿塔尔所说,你可以试试你的哪种被管理的方法会更好。

此外,您可以尝试将“大”类拆分为(large_class / small_class)随机拆分! 然后你训练一个分类器(你有小班的所有数据,只有大班的一部分)用于你的每一次分裂。

最后,您可以将所有分类器与bagging / boosting / neural_network / other_model结合使用。