标签: machine-learning random-forest cross-validation
我有98k比例的二十亿不平衡数据(二进制分类)。 我试图随机提取98%的类,并与其他类进行平衡,导致数据点不到3k。
我的随机森林AUC ROC达到了92%左右。
(我不想使用SMOTE /过采样/加权少数类,因为它很难解释结果)
它的信用数据顺便说一句。我担心它会导致极端偏见(随机森林+超小样本)