Weka 3.7中RandomForest的精确实现

时间:2013-10-02 12:46:29

标签: machine-learning data-mining weka decision-tree random-forest

回顾了最初的Breiman(2001)论文以及其他一些董事会帖子后,我对WEKAs随机森林实施所使用的实际程序略感混淆。没有一个来源足够精细,许多甚至互相矛盾。

如何详细工作,执行哪些步骤?

我的理解到现在为止:

  • 对于每棵树,创建与训练数据大小相同的引导样本
  • 每个节点仅考虑定义大小的可用特征的随机子集(可在WEKA中选择参数)
  • 关于使用的基础树学习者,我发现2006年的帖子说明是修改过的REPTree。
  • 树完全长大,没有被修剪。
  • 应用多数表决(如果是准确性作为效绩指标)

我的问题:

  • 是否实际使用了bootstrap采样?
  • REPTree是否仍在使用或者算法从那时起被更改了?

澄清这些问题会对我有所帮助!

1 个答案:

答案 0 :(得分:4)

回答你的问题

  1. 确实使用了Bagging(bootstrap聚合)。您可以在529

  2. 行的代码中查看该内容
  3. 似乎使用了RandomTree,如第{3}}行所示

  4. 此信息来自Weka 3.7.5,我相信这是正确的,直到版本3.6.8,但我没有检查源代码。