我的模型中有大约300,000行数据和10个要素,我想要在randomForest
中的R
包中插入随机林。
为了最大限度地增加树木的数量,我可以在一个固定的时间窗口内进入森林,而不会破坏我应该设置参数的合理范围是什么?
答案 0 :(得分:2)
通常你可以按照mtry
这样解释,默认情况通常最好:
https://stats.stackexchange.com/questions/50210/caret-and-randomforest-number-of-trees
但是有一个函数tuneRF
,其中包含randomForest,可帮助您找到最佳ntree
或mtry
,如下所示:
setting values for ntree and mtry for random forest regression model
你需要自己测试的时间 - 它将成为折叠调整 ntrees的产品。
我要添加的唯一推测点是,通过引导小数据样本, 可以<300>行 减少运行时间而不会降低预测准确性? ?