我计划使用r' randomForest'在同一数据上构建5个连续的随机森林(RF)。包。我正在利用page完成的工作。
在构建第一个RF时,当RF决定在任何节点分割数据时,每个X变量应该有相同的机会被选中。
但是在接下来的RF中,每个变量被选中进行拆分的几率应该基于早期RF给出的变量重要性。例如,如果
RF1 $重要性
MeanDecreaseGini
X1 3.3182386
X2 0.6457600
X3 0.6196704
X4 0.5687371
X5 1.6559662
X6 0.4337502
X7 0.5900012
X8 0.4284394
X9 0.8748509
X10 0.4065861
然后在RF2期间,X1变量应该有更多的被选中概率等等。如何根据某些预定义的变量重要性数组使RF为分割选择变量?
我知道mtry参数允许我们指定"在每次拆分时随机抽样为候选的变量数。",但我想指定选择每个变量的概率。
---------------- update 1 ----------------------------- -
添加示例代码
library(randomForest)
require(rpart)
fit <- randomForest(Kyphosis ~ Age + Number + Start, data=kyphosis)
fit$mtry
上面的代码将适合随机森林的分类问题。但是,让我说我想增加选择变量的概率&#34;年龄&#34;任何分裂。现在每个变量都有相同的选择机会。我怎样才能做到这一点?