加速非常大的数据集上的随机森林

时间:2012-12-10 17:30:00

标签: r optimization parallel-processing machine-learning random-forest

  

可能重复:
  Suggestions for speeding up Random Forests

我想在我的数据129600 X 900上构建随机森林。此外,我希望有不少于1000棵树用于回归。我在我的数据上执行了以下代码,其中all_reg是129600 X 900数据矩阵,train_resp_reg是129600标签矩阵

train_reg <- randomForest(x=as.data.frame(all_reg[,2:dim(all_reg [2]]),
                      y=as.numeric(train_resp_reg),ntree=100)

代码已在单个处理器上运行超过3天并且它仍在运行,所以我想知道是否有任何解决方案可以更快地运行它,我可以访问具有64个内核的服务器,所以如何让这段代码尽可能快地运行?

任何建议表示赞赏

0 个答案:

没有答案