并行化随机森林

时间:2016-05-13 14:55:49

标签: r parallel-processing random-forest

通过搜索和询问,我发现了许多可以用来使用我服务器的所有核心的软件包,以及许多可以随机使用森林的软件包。

我对此非常陌生,而且我在所有平行培训随机森林的方法中迷失了方向。你能否就使用和/或避免使用它们的原因,或者它们的某些特定组合(以及有或没有caret?)提出一些建议吗?

并行化软件包:

doParallel

doSNOW

doSMP(已停止?),

doMC

(以及mclapply怎么办?)

随机森林的包:

[caret +以下部分内容]

rf

parRF

randomForest

ranger

Rborist

parallelRandomForest(崩溃我的R Studio会话......)

由于

1 个答案:

答案 0 :(得分:3)

有一些关于SO的答案,例如parallel execution of random forest in RSuggestions for speeding up Random Forests,我会看一下。

这些帖子很有帮助,但有点老了。 ranger包是一个特别快的随机森林实现,所以如果你是新手,它可能是加速模型训练的最简单方法。 Their paper讨论了一些可用软件包的权衡 - 取决于您的数据大小和功能数量,哪种软件包可以提供最佳性能。