在进行二进制分类的情况下,数据集不平衡的问题

时间:2020-05-21 04:39:08

标签: python machine-learning data-science imbalanced-data

我有一个二进制分类问题,数据划分类似于:{0:85%,1:15%}。我尝试过重新加权class_weights和其他采样方法。但是我使用的所有方法都给我不令人满意的结果。 我的数据集是(91125,57)。

Accuracy:1
F1-Score:1
F2-Score:1
Precision:1
Recall:1
AUCROC:1
Kappa:1

还有其他方法可以用来处理这种情况吗?

1 个答案:

答案 0 :(得分:1)

在将数据提供给分类器之前,请确保从功能中删除了目标变量:

X = df.drop('target',axis=1) y = df['target']

我还要检查一些自变量是否与目标高度相关。它可以使您了解导致不切实际的完美分类的原因:

import seaborn as sns sns.heatmap(X_train.corr())