不平衡数据随机森林和其他模型使用

时间:2015-12-10 08:35:39

标签: machine-learning random-forest cross-validation

我有98k比例的二十亿不平衡数据(二进制分类)。 我试图随机提取98%的类,并与其他类进行平衡,导致数据点不到3k。

我的随机森林AUC ROC达到了92%左右。

(我不想使用SMOTE /过采样/加权少数类,因为它很难解释结果)

它的信用数据顺便说一句。我担心它会导致极端偏见(随机森林+超小样本)

0 个答案:

没有答案