标签: machine-learning scikit-learn data-modeling modeling data-analysis
尝试对存在明显类不平衡问题的数据集进行分类。对于1500的确定数据集,有108个1,其余为0' s-1& 0表示明确的类别。 使用决策树创建模型。用于纠正类不平衡问题的方法,如ADABoost,SMOTE等,但问题是 - - 当我用它来预测测试集时,它预测得很好 但 当我采用0.1百万的随机数据集时,它的预测是令人难以置信的偏差 - 例如0和80的20%和1的20%,这是不可能的。
我错过了什么?