随机森林回归:特征数量与观察数量

时间:2021-01-13 13:00:28

标签: random-forest

我是 R 和随机森林回归的新手,未能回答以下问题。我很乐意提供帮助:

  1. 是否总是需要将文件拆分为训练集和测试集?还是可以对整个样本计算随机森林回归? 我从
  2. 得到了ideo
<块引用>

“随机森林不需要分割采样方法来评估模型的准确性。它执行内部验证,因为使用可用训练数据的 2-3rd 来生长每棵树,而其余三分之一的训练数据总是用于计算袋外误差以评估模型性能。” (来自https://www.listendata.com/2014/11/random-forest-with-r.html

还是我误会了? 我使用以下代码计算了我的随机森林:

rf <- cforest(y ~ .,
               data=mydata,  
               controls = cforest_unbiased(mtry = 5, ntree = 1001)) 

set.seed(2000) 
rf.varimp <- party::varimp(rf, conditional=T) 
rf.varimp %>% sort(decreasing = T)

这包括我的整个样本。

  1. 是否可以使用 cforest 计算 OOB 准确度?

  2. 是否有经验法则或任何关于我需要对特征进行多少观察的规则?我有 290 个观察和 40 个特征来预测我的结果。 40 个特征对于观察数量来说是否太多?

  3. 交叉验证究竟是什么?

谢谢。

0 个答案:

没有答案