我正在尝试使用SMOTE进行超采样,因为我的数据高度不平衡。
full_df = pd.concat([X, y], axis=1)
print (y.value_counts())
1 45177
0 1808
Name: event_type, dtype: int64
X = df_events.drop('target', axis=1)
y = df_events['target']
oversampler = SMOTE(random_state=42)
X, y = oversampler.fit_sample(X, y)
我遵循与this相同的步骤
然后,我预测将使用XGboost,从中得到一个ValueError: feature_names mismatch error
。
有什么我想念的吗?