使用SMOTE /过采样进行多类分类时,如何选择样本数量?

时间:2019-08-01 19:06:38

标签: python machine-learning multiclass-classification imblearn

我正在结果变量为1-6的整数的数据集上尝试SMOTE(来自imblearn)。是否有任何准则来确定各个类别中样本量的最佳平衡?还是在这种情况下最好遍历不同的选项并评估结果?

训练集的大小看起来像{1:6000,2:10000,3:20000,4:25000,5:30000,6:35000}。 SMOTE中sample_strategy参数的默认值是重新采样,以便所有少数类(1-5)与类别6的大小匹配。但是我想知道是否应该尝试仅增加类别1和2的大小。

关于测试集的总体准确性,针对1级和2级:

sm = SMOTE(random_state=22, sampling_strategy = {1:10500, 2: 15000})
X_train, y_train = sm.fit_sample(X_train, y_train)

总体准确度比默认重采样略高

sm = SMOTE(random_state=22)
X_train, y_train = sm.fit_sample(X_train, y_train)

0 个答案:

没有答案