R中有大型数据集的随机森林(Rborist)

时间:2015-09-21 12:41:49

标签: r random-forest

我正在使用RboristR中构建随机林。但是,在使用训练集构建模型之后,在使用predictpredict.Rborist)函数时,R正在崩溃,并显示消息“R for Windows GUI front-end已停止工作”。

我使用的是具有8核CPU,32 GB RAM的机器,我的数据集有150k记录和2k变量。使用整个数据集构建随机森林大约需要2小时,并启用并行处理。

虽然这可能是内存错误,但CPU或内存使用状态并未指示。请帮忙。

1 个答案:

答案 0 :(得分:2)

Indranil,

这可能不是内存问题。 predict()方法有一个错误,其中隐含地假定行计数小于或等于原始训练行计数。 Github上的版本修复了这个问题并且看起来很稳定。一个新的CRAN版本已经过期,等待一些变化。