在非平衡数据集上使用SMOTE

时间:2016-06-03 17:11:44

标签: machine-learning azure-machine-learning-studio

我有一个2级非平衡数据集,其比例为20:1

我正在使用SMOTE对次要类进行过度采样,并想知道何时使用SMOTE开发可用模型,如果最好过采样,以便次要类的百分比与其他类相同(即1: 1)或通过试验确定错误的最低可能比率,以将模型整体提高到可接受的水平(即F1Score> 0.7),但如果合理的话,不要使用太多的合成样本。

任何想法/建议都表示赞赏。

2 个答案:

答案 0 :(得分:0)

对于大部分班级的抽样总是比SMOTING更好,因为根据我的经验,SMOTING从未帮助过。我的建议是尝试采取所有/大多数少数民族的案例,并尝试以不同的比率对大多数班级进行取样F的甜点!得分了。 -谢谢 萨蒂什南比亚

答案 1 :(得分:0)

您可以尝试不同的SMOTE百分比和最近邻居值。然后根据您的F1Score选择最佳参数值。

您的最佳结果不一定是具有最高SMOTE百分比的那个。