改善高度不平衡数据集分类问题的结果

时间:2019-04-09 09:33:27

标签: scikit-learn svm

我正在使用sklearn运行LinearSVC模型,以解决不平衡数据集上的分类问题,并得到如下结果:

confusion matrix:
[[43677 28222]
 [ 5309  9575]]

classification report:
   precision    recall  f1-score   support

   class 0:       0.72      0.69      0.71    133958
   class 1:       0.70      0.73      0.72    133958

   micro avg       0.71      0.71      0.71    267916
   macro avg       0.71      0.71      0.71    267916
weighted avg       0.71      0.71      0.71    267916

               precision    recall  f1-score   support

class 0:       0.89      0.61      0.72     71899
class 1:       0.25      0.64      0.36     14884

    micro avg       0.61      0.61      0.61     86783
    macro avg       0.57      0.63      0.54     86783
 weighted avg       0.78      0.61      0.66     86783

看看结果,您对我有什么改善的建议吗? (我正在使用过采样方法来平衡训练数据集)

我担心的是从数据中过滤出类别1中的所有实例,我应该只看一下类别1的精度/召回率还是应该使用其他任何指标来评估模型的性能?

1 个答案:

答案 0 :(得分:0)

过采样并不能一直提供帮助(即,它只是复制样本以平衡数据)。 尝试不同的方法,例如“综合少数族裔过采样技术”。 有关更多详细信息,请参见以下SMOTE