我有一个大型数据集(大约10000行),我正在尝试运行一个分类随机林,我打算用它来进行预测。我的数据是每个不平衡的。对于结果变量,我试图预测大约89%的行标记为“1”,余数为“0”。 我使用的代码如下:
RFTry <-randomForest(as.factor(OutcomeVariable)~., data=df, importance=TRUE,
ntree=200, samplesize=c(500,500))
我不确定我应该使用什么样的样品。我应该为每个结果变量抽取相同数量的行还是不同?我应该带多少样品?下面显示了每个变量数量的表格。
> table(df$OutcomeVariable)
0 1
10228 1234
谢谢!