数据集极不平衡,阳性结果与阴性结果相比大约只有10%。例如:(0-11401,1- 1280)。
我尝试了
1. RandomForestClassifier
与GridSearchCV
-超参数调整。
2.带有class_weight="balanced"
的加权RandomForest
3.受罚的SVC
4.上采样和下采样
尽管如此,我在上述任何一种方法中都无法获得很好的精度或召回率。 我知道患病率与PPV有关。而且我的数据集的等级为-1。另外,Random Forest可能会占多数。
但是我希望采样应该工作,但是没有。我想念什么吗?任何建议将不胜感激。
答案 0 :(得分:0)
一些方法可以帮助您:
告诉我是否有任何帮助