使用randomForest包的海量数据集

时间:2014-01-02 16:48:32

标签: r package

我的模型中有大约300,000行数据和10个要素,我想要在randomForest中的R包中插入随机林。

为了最大限度地增加树木的数量,我可以在一个固定的时间窗口内进入森林,而不会破坏我应该设置参数的合理范围是什么?

1 个答案:

答案 0 :(得分:2)

通常你可以按照mtry这样解释,默认情况通常最好:

https://stats.stackexchange.com/questions/50210/caret-and-randomforest-number-of-trees

但是有一个函数tuneRF,其中包含randomForest,可帮助您找到最佳ntreemtry,如下所示:

setting values for ntree and mtry for random forest regression model

你需要自己测试的时间 - 它将成为折叠调整 ntrees的产品。

我要添加的唯一推测点是,通过引导小数据样本, 可以<300>行 减少运行时间而不会降低预测准确性? ?