Question

我有一个预测变量的随机森林模型。此变量不是分类类，而是0到1之间的数字。在这种情况下，评估生成模型的准确性的最佳方法是什么？

我应该拆分训练和测试部分，然后简单地计算测试类中预测值和观测值之间的线性相关性吗？

有更优雅的解决方案吗？如果是这样，哪个包实现了这个？

Answer 1

你当然可以将一些数据拆分为测试（与火车相比），但对于随机森林，这通常是没有必要的，因为有一个内置的＆＃34;袋外（OOB）错误。这是一个示例，最后显示OOB错误与＆＃34; mtcars＆＃34;数据集：

install.packages("randomForest")
library(randomForest)

head(mtcars)
set.seed(1)
fit <- randomForest(mpg ~ ., data = mtcars, importance = TRUE, proximity = TRUE)
print(fit)

# Look at variable importance:
importance(fit)

# OOB error vs. # of trees
plot(fit)

评估连续数据随机森林模型准确度的最佳方法？

1 个答案: