例如，在SMOTE中，要更改比例，您需要输入字典，并且所有值都必须大于或等于最大类（因为SMOTE是一种过采样技术）。根据我的经验，我发现SMOTE更适合模型性能的原因可能是因为使用RandomOverSampler您正在复制行，这意味着模型可以开始存储数据，而不是将其推广到新数据。 SMOTE使用K-Nearest-Neighbors算法将“相似”的数据点设置为与采样点相似的数据点。

有时候，盲目使用SMOTE，将比率设置为其默认值（甚至是班级余额）不是一个好习惯，因为即使SMOTE使用最近的邻居做出“相似”，该模型也可能适合一个或多个少数派。观察。以与您一样的方式来调整ML模型的超参数，您将调整SMOTE算法的超参数，例如比率和/或knn。以下是如何正确使用SMOTE的有效示例。

注意：非常重要的一点是，不要对完整的数据集使用SMOTE。您必须仅在训练集上使用SMOTE（即在拆分后），然后在验证集和测试集上进行验证，以查看您的SMOTE模型是否执行了其他模型。如果不这样做，将导致数据泄漏，并且您将获得一个完全不相关的模型。

from collections import Counter
from imblearn.pipeline import Pipeline
from imblearn.over_sampling import SMOTE
import numpy as np
from xgboost import XGBClassifier
import warnings

warnings.filterwarnings(action='ignore', category=DeprecationWarning)
sm = SMOTE(random_state=0, n_jobs=8, ratio={'class1':100, 'class2':100, 'class3':80, 'class4':60, 'class5':90})
X_resampled, y_resampled = sm.fit_sample(X_normalized, y)

print('Original dataset shape:', Counter(y))
print('Resampled dataset shape:', Counter(y_resampled))

X_train_smote, X_test_smote, y_train_smote, y_test_smote = train_test_split(X_resampled, y_resampled)
X_train_smote.shape, X_test_smote.shape, y_train_smote.shape, y_test_smote.shape, X_resampled.shape, y_resampled.shape

smote_xgbc = XGBClassifier(n_jobs=8).fit(X_train_smote, y_train_smote)

print('TRAIN')
print(accuracy_score(smote_xgbc.predict(np.array(X_train_normalized)), y_train))
print(f1_score(smote_xgbc.predict(np.array(X_train_normalized)), y_train))

print('TEST')
print(accuracy_score(smote_xgbc.predict(np.array(X_test_normalized)), y_test))
print(f1_score(smote_xgbc.predict(np.array(X_test_normalized)), y_test))

scikit-learn中的不平衡

5 个答案: