为r中的随机森林的不平衡数据选择样本saze

时间:2017-08-01 11:38:45

标签: r random-forest decision-tree sample-size

我有一个大型数据集(大约10000行),我正在尝试运行一个分类随机林,我打算用它来进行预测。我的数据是每个不平衡的。对于结果变量,我试图预测大约89%的行标记为“1”,余数为“0”。 我使用的代码如下:

RFTry <-randomForest(as.factor(OutcomeVariable)~., data=df, importance=TRUE, 
ntree=200, samplesize=c(500,500))

我不确定我应该使用什么样的样品。我应该为每个结果变量抽取相同数量的行还是不同?我应该带多少样品?下面显示了每个变量数量的表格。

> table(df$OutcomeVariable)

    0     1 
10228  1234 

谢谢!

0 个答案:

没有答案