随机森林的可能算法

时间:2019-11-19 12:22:11

标签: algorithm machine-learning artificial-intelligence random-forest decision-tree

我正在研究随机森林,并且正在寻找随机森林算法。

我已经查找了决策树的算法(例如 ID3,C4.5,CART )。

但是 Random Forest 有什么不同的算法?我对文学没有完全理解。

您能说装袋和ExtraTrees吗?

预先感谢

1 个答案:

答案 0 :(得分:3)

任何依赖于注入 random 的方式来种植各种互不相关的树木的树木集合(即 forest ),可以称为 random forest < / em>。所有变体随机森林都基于相同的原理,即我们可以使单个树变得越多样化,所产生的泛化误差就越低。

一种这样的随机性注入方式称为 B 陷阱 Agg regat ing (装袋),它会将随机性注入数据集< / em>发送到每棵树**。另一种是Random Subspace方法,该方法基本上是在每个树节点上随机采样特征的子集,以找到最佳的(特征,值)分割(而不是考虑所有特征)。这里的随机性在于树的构建过程。 ExtraTree是另一个在树构建阶段引入随机性的示例,首先通过为每个特征随机选择切点,然后选择最佳(特征,值)分割。有趣的variant 有意地在每个基础树的数据集中独立地引入了标签噪声-我想您明白了。

但是,对于许多人来说,“随机森林”一词实际上是随机森林家族中最著名的成员,这是Breiman著名的paper中详述的变体。这基本上使用了上面讨论的Bagging和Random子空间方法,仅此而已!

**数据集随机化技术(例如装袋或标记噪声的一种技术)可与决策树以外的任何算法一起使用。因此Bagging并不是随机森林的确切例子,它更像是随机森林的组成部分。