应用错误收集

使用randomForest包的海量数据集

时间：2014-01-02 16:48:32

标签： r package

我的模型中有大约300,000行数据和10个要素，我想要在randomForest中的R包中插入随机林。

为了最大限度地增加树木的数量，我可以在一个固定的时间窗口内进入森林，而不会破坏我应该设置参数的合理范围是什么？

1 个答案:

答案 0 :(得分：2)

通常你可以按照mtry这样解释，默认情况通常最好：

https://stats.stackexchange.com/questions/50210/caret-and-randomforest-number-of-trees

但是有一个函数tuneRF，其中包含randomForest，可帮助您找到最佳ntree或mtry，如下所示：

setting values for ntree and mtry for random forest regression model

你需要自己测试的时间 - 它将成为折叠调整 ntrees的产品。

我要添加的唯一推测点是，通过引导小数据样本，可以<300>行减少运行时间而不会降低预测准确性？？