我目前正在尝试使用递归特征消除(RFE)优化用于非常高维数据集(p> 200k)的随机森林分类器。 caret包具有很好的实现( rfe() -function)。但是,我也在考虑优化RAM和CPU使用率。这就是为什么我想知道是否有机会设置不同(更大)数量的树来训练第一个森林(没有特征消除)并使用其重要性来构建其余的(使用RFE)使用例如具有10或5倍交叉验证的500棵树。我知道varSelRF可以使用此选项..但caret怎么样?我无法在手册中找到任何相关内容。
答案 0 :(得分:2)
你可以做到这一点。 rfFuncs列表有一个名为fit的对象,用于定义模型的拟合方式。该函数的一个参数称为“first”,在第一次拟合时为TRUE(还有一个“last”arg)。您可以根据此设置ntree。
有关详细信息,请参阅功能选择小插图。
最高