如何应对机器学习数据集中的不平衡类

时间:2019-09-09 14:28:16

标签: deep-learning classification yolo

我想用深度学习算法对5个不同的对象进行分类。我打算使用转学。 对于2个类,我有2000多个数据集,并且有可能收集更多数据集。但是,对于另外3个班级,我每个班级总共只有300个。

例如,假设我们有一个“ Not-Fraud”和“ Fraud”类的二进制类。绝大多数交易属于“非欺诈”类别,很少一部分交易属于“欺诈”类别。

PS。如果我可以将其中一个大型数据集用作一个类,将其余数据集用作另一个类,则该问题可以转化为二进制分类问题。 我想知道您能否告诉我如何管理这种不平衡的训练数据?

先谢谢您。

2 个答案:

答案 0 :(得分:0)

您可以尝试使用SMOTE(综合少数族裔过采样技术)对少数族裔实例进行过采样。

link here for SMOTE

答案 1 :(得分:0)

仅在少数类上执行一些图像数据扩充。