我是 R 和随机森林回归的新手,未能回答以下问题。我很乐意提供帮助:
“随机森林不需要分割采样方法来评估模型的准确性。它执行内部验证,因为使用可用训练数据的 2-3rd 来生长每棵树,而其余三分之一的训练数据总是用于计算袋外误差以评估模型性能。” (来自https://www.listendata.com/2014/11/random-forest-with-r.html)
还是我误会了? 我使用以下代码计算了我的随机森林:
rf <- cforest(y ~ .,
data=mydata,
controls = cforest_unbiased(mtry = 5, ntree = 1001))
set.seed(2000)
rf.varimp <- party::varimp(rf, conditional=T)
rf.varimp %>% sort(decreasing = T)
这包括我的整个样本。
是否可以使用 cforest 计算 OOB 准确度?
是否有经验法则或任何关于我需要对特征进行多少观察的规则?我有 290 个观察和 40 个特征来预测我的结果。 40 个特征对于观察数量来说是否太多?
交叉验证究竟是什么?
谢谢。