应用错误收集

不平衡数据随机森林和其他模型使用

时间：2015-12-10 08:35:39

标签： machine-learning random-forest cross-validation

我有98k比例的二十亿不平衡数据（二进制分类）。我试图随机提取98％的类，并与其他类进行平衡，导致数据点不到3k。

我的随机森林AUC ROC达到了92％左右。

（我不想使用SMOTE /过采样/加权少数类，因为它很难解释结果）

它的信用数据顺便说一句。我担心它会导致极端偏见（随机森林+超小样本）

0 个答案:

没有答案