通过搜索和询问,我发现了许多可以用来使用我服务器的所有核心的软件包,以及许多可以随机使用森林的软件包。
我对此非常陌生,而且我在所有平行培训随机森林的方法中迷失了方向。你能否就使用和/或避免使用它们的原因,或者它们的某些特定组合(以及有或没有caret
?)提出一些建议吗?
并行化软件包:
doParallel
,
doSNOW
,
doSMP
(已停止?),
doMC
(以及mclapply
怎么办?)
随机森林的包:
[caret
+以下部分内容]
rf
,
parRF
,
randomForest
,
ranger
,
Rborist
,
parallelRandomForest
(崩溃我的R Studio会话......)
由于
答案 0 :(得分:3)
有一些关于SO的答案,例如parallel execution of random forest in R和Suggestions for speeding up Random Forests,我会看一下。
这些帖子很有帮助,但有点老了。 ranger
包是一个特别快的随机森林实现,所以如果你是新手,它可能是加速模型训练的最简单方法。 Their paper讨论了一些可用软件包的权衡 - 取决于您的数据大小和功能数量,哪种软件包可以提供最佳性能。