Question

我是Caret的新手，我只想确保我完全理解它在做什么。为此，我一直在尝试使用caret的train（）函数复制我从randomForest（）模型得到的结果，方法=“rf”。不幸的是，我无法得到匹配的结果，我想知道我在忽视什么。

我还要补充一点，鉴于randomForest使用bootstrapping生成样本以适应每个ntree，并根据out-of-bag预测估计错误，我对指定“oob”之间的差异有点模糊和trainControl函数调用中的“boot”。这些选项会生成不同的结果，但都不匹配randomForest（）模型。

虽然我已经阅读了插入符号包网站（http://topepo.github.io/caret/index.html），以及看起来可能相关的各种StackOverflow问题，但我还没弄清楚为什么插入符号方法=“rf”模型从randomForest（）产生不同的结果。非常感谢您提供的任何见解。

这是一个可复制的例子，使用MASS包中的CO2数据集。

library(MASS)
data(CO2)

library(randomForest)
set.seed(1)
rf.model <- randomForest(uptake ~ ., 
                       data = CO2,
                       ntree = 50,
                       nodesize = 5,
                       mtry=2,
                       importance=TRUE, 
                       metric="RMSE")

library(caret)
set.seed(1)
caret.oob.model <- train(uptake ~ ., 
                     data = CO2,
                     method="rf",
                     ntree=50,
                     tuneGrid=data.frame(mtry=2),
                     nodesize = 5,
                     importance=TRUE, 
                     metric="RMSE",
                     trControl = trainControl(method="oob"),
                     allowParallel=FALSE)

set.seed(1)
caret.boot.model <- train(uptake ~ ., 
                     data = CO2,
                     method="rf",
                     ntree=50,
                     tuneGrid=data.frame(mtry=2),
                     nodesize = 5,
                     importance=TRUE, 
                     metric="RMSE",
                     trControl=trainControl(method="boot", number=50),
                     allowParallel=FALSE)

 print(rf.model)
 print(caret.oob.model$finalModel) 
 print(caret.boot.model$finalModel)

产生以下内容：

print（rf.model）

      Mean of squared residuals: 9.380421
                % Var explained: 91.88

print（caret.oob.model $ finalModel）

      Mean of squared residuals: 38.3598
                % Var explained: 66.81

打印（caret.boot.model $ finalModel）

      Mean of squared residuals: 42.56646
                % Var explained: 63.16

查看变量重要性的代码：

importance(rf.model)

importance(caret.oob.model$finalModel)

importance(caret.boot.model$finalModel)

Answer 1

在列车中使用公式接口将因子转换为虚拟。要将caret与randomForest的结果进行比较，您应该使用非公式界面。

在您的情况下，您应该在trainControl中提供种子，以获得与randomForest中相同的结果。

在插入符号网页中的

Section training，有一些关于重现性的注释，它解释了如何使用种子。

library("randomForest")
set.seed(1)
rf.model <- randomForest(uptake ~ ., 
                         data = CO2,
                         ntree = 50,
                         nodesize = 5,
                         mtry = 2,
                         importance = TRUE, 
                         metric = "RMSE")

library("caret")
caret.oob.model <- train(CO2[, -5], CO2$uptake, 
                         method = "rf",
                         ntree = 50,
                         tuneGrid = data.frame(mtry = 2),
                         nodesize = 5,
                         importance = TRUE, 
                         metric = "RMSE",
                         trControl = trainControl(method = "oob", seed = 1),
                         allowParallel = FALSE)

如果您正在进行重新采样，则应为每次重采样迭代提供种子，并为最终模型提供额外的种子。 ?trainControl中的示例显示了如何创建它们。

在以下示例中，最后一个种子用于最终模型，我将其设置为1.

seeds <- as.vector(c(1:26), mode = "list")

# For the final model
seeds[[26]] <- 1

caret.boot.model <- train(CO2[, -5], CO2$uptake, 
                          method = "rf",
                          ntree = 50,
                          tuneGrid = data.frame(mtry = 2),
                          nodesize = 5,
                          importance = TRUE, 
                          metric = "RMSE",
                          trControl = trainControl(method = "boot", seeds = seeds),
                          allowParallel = FALSE)

正确定义caret的非公式界面和trainControl中的种子，您将在所有三种模型中获得相同的结果：

rf.model
caret.oob.model$final
caret.boot.model$final

randomForest（）和插入符号randomForest（method =“rf”）的结果不同

1 个答案: