为什么随机森林比梯度提升机更容易并行化?

时间:2019-05-01 16:09:49

标签: machine-learning parallel-processing random-forest

是不是因为GBM,每个决策树都依赖于先前的决策树?换句话说,没有独立性吗?

1 个答案:

答案 0 :(得分:0)

您已经怀疑,这完全是因为在GBM中,每个决策树都依赖于,因此决策树无法独立拟合,因此原则上不可能并行化。

>

请考虑以下摘录,引用自The Elements of Statistical Learning,第Ch。 10(助推树和加法树),第337-339页(强调我):

  

弱分类器是一种错误率仅比   随机猜测。提升的目的是顺序应用   弱分类算法可反复修改数据版本,   从而产生弱分类器Gm(x)的序列,m = 1、2,...。 。 。 ,M。然后通过加权将来自所有预测的预测合并   多数投票产生最终的预测。   [...]   因此,每个成功分类器都必须专注于序列中先前观测值所遗漏的那些训练观测值。

在图片中(同上,第338页):

enter image description here

另一方面,在随机森林中,所有树都是独立的,因此算法的并行化相对简单。