评估连续数据随机森林模型准确度的最佳方法?

时间:2017-09-26 14:06:34

标签: r model random-forest

我有一个预测变量的随机森林模型。此变量不是分类类,而是0到1之间的数字。在这种情况下,评估生成模型的准确性的最佳方法是什么?

我应该拆分训练和测试部分,然后简单地计算测试类中预测值和观测值之间的线性相关性吗?

有更优雅的解决方案吗?如果是这样,哪个包实现了这个?

1 个答案:

答案 0 :(得分:0)

你当然可以将一些数据拆分为测试(与火车相比),但对于随机森林,这通常是没有必要的,因为有一个内置的"袋外(OOB)错误。这是一个示例,最后显示OOB错误与" mtcars"数据集:

install.packages("randomForest")
library(randomForest)

head(mtcars)
set.seed(1)
fit <- randomForest(mpg ~ ., data = mtcars, importance = TRUE, proximity = TRUE)
print(fit)

# Look at variable importance:
importance(fit)

# OOB error vs. # of trees
plot(fit)