我必须处理Class Imbalance
问题并对输入数据集进行binary-classification
,其中大多数class-label为0(另一个class-label为1)。
实际的数据集有0M的4M条目和1类的3700条目,非常不正确。
Distribution of class labels
0 0.999229
1 0.000771
另一件事,我有7个具有高基数的功能:
Number of unique values of X1 feature 69
Number of unique values of X2 feature 114
Number of unique values of X3 feature 197
Number of unique values of X4 feature 19
Number of unique values of X5 1684
Number of unique values of X6 feature 7371
Number of unique values of X7 feature 13508
我做了什么:
LightGBM Classifier
与is_unbalanced=True
,损耗f1-score
和度量指标f1-score
一起使用。BayesSearchCV
来找到LightGBM
的最佳参数。这还不够,该模型的效果不佳,过度适合0级。
Class 0 precision=1, recall=1
Class 1 precision=0, recall=0
有什么建议吗?我也能做什么?