我正在将R randomForest
用于各种回归任务。对我来说,超参数调整仍然很神秘。我有调优ntree
和mtry
的知识,但是从直觉上讲,我还希望调优每个包中的样本数量,以平衡模型偏差和方差。
根据文档,我认为sampsize
是这样做的。但是阅读函数参数会发现它比这更复杂。如果使用替换(replace = TRUE
)运行,似乎我无法控制袋内/袋外样品的比例。实际上,对于replace = TRUE
,我什至认为该算法使用的比例甚至没有记载。
文档:sampsize: Size(s) of sample to draw.
函数参数:sampsize = if (replace) nrow(x) else ceiling(.632*nrow(x))
是否有一种方法可以控制袋中样品的比例?这甚至是一个值得调整的参数吗?
答案 0 :(得分:0)
参数sampsize = if (replace) nrow(x) else ceiling(.632*nrow(x))
仅表示当replace为true时其默认值为nrow(x)
,否则为ceiling(.632*nrow(x))
。
但是,您可以通过为其分配值来进行更改:
randomForest(X, replace = T, sampsize = 10)