randomForest:如何控制袋内/袋外样品的比例?

时间:2018-11-12 13:21:42

标签: r random-forest

我正在将R randomForest用于各种回归任务。对我来说,超参数调整仍然很神秘。我有调优ntreemtry的知识,但是从直觉上讲,我还希望调优每个包中的样本数量,以平衡模型偏差和方差。

根据文档,我认为sampsize是这样做的。但是阅读函数参数会发现它比这更复杂。如果使用替换(replace = TRUE)运行,似乎我无法控制袋内/袋外样品的比例。实际上,对于replace = TRUE,我什至认为该算法使用的比例甚至没有记载。

文档sampsize: Size(s) of sample to draw.

函数参数sampsize = if (replace) nrow(x) else ceiling(.632*nrow(x))

是否有一种方法可以控制袋中样品的比例?这甚至是一个值得调整的参数吗?

1 个答案:

答案 0 :(得分:0)

参数sampsize = if (replace) nrow(x) else ceiling(.632*nrow(x))仅表示当replace为true时其默认值nrow(x),否则为ceiling(.632*nrow(x))

但是,您可以通过为其分配值来进行更改:

randomForest(X, replace = T, sampsize = 10)