我有一个预测变量的随机森林模型。此变量不是分类类,而是0到1之间的数字。在这种情况下,评估生成模型的准确性的最佳方法是什么?
我应该拆分训练和测试部分,然后简单地计算测试类中预测值和观测值之间的线性相关性吗?
有更优雅的解决方案吗?如果是这样,哪个包实现了这个?
答案 0 :(得分:0)
你当然可以将一些数据拆分为测试(与火车相比),但对于随机森林,这通常是没有必要的,因为有一个内置的"袋外(OOB)错误。这是一个示例,最后显示OOB错误与" mtcars"数据集:
install.packages("randomForest")
library(randomForest)
head(mtcars)
set.seed(1)
fit <- randomForest(mpg ~ ., data = mtcars, importance = TRUE, proximity = TRUE)
print(fit)
# Look at variable importance:
importance(fit)
# OOB error vs. # of trees
plot(fit)