“诚实”的随机森林

时间:2018-11-14 13:46:45

标签: random-forest training-data test-data

我想知道随机森林预测时以下两种方法之间的区别:

方法1:

  1. (随机)将数据集分为训练样本和测试样本
  2. 使用替换自举(其中n_tree是要构建的树数)从训练集中创建n_tree子样本
  3. 在这些n_tree子样本中的每个样本上构建一棵树(每个节点具有(相应子样本的)特征的随机子集)
  4. 运行您对每棵树进行测试并获得预测
  5. 所有树木的平均值

方法2:

  1. (随机)将数据集分为训练样本和测试样本
  2. 在训练样本上构建一棵树(每个节点上具有(相应子样本的)特征的随机子集)
  3. 在树上运行测试集并获得预测
  4. 重复步骤1.-3。 n_tree次
  5. 所有树木的平均值

方法2(据我了解)是使用所谓的“诚实”树,因为每棵树都建立在一个集合上,并在另一集合上进行预测(这将导致渐近正态预测(Athey&Wager,2017年)但是,这与方法1有什么不同,方法1也是在一个集合上构建我的树,并在另一集合上进行预测?我确实知道在方法1中,我只随机分配一次训练和测试集,而方法2中则是因此,在方法1中,我必须确保两组中X(特征)和Y(标签)之间的联合分布相同,方法2中的情况应该平均。方法1的情况也一样,这两种方法是否相同?那么,我的预测在两种方法中都渐近正常吗?

对此表示感谢,感谢您!

0 个答案:

没有答案