我正在处理大量数据,大约120,000行和34列。正如您可以很好地成像,当使用R包randomForest时,即使在功能强大的Windows服务器上,该程序也需要相当长的时间才能运行。
虽然我不是randomForest的专家,但我有一个关于正确使用combine()函数的问题。
当我在网上研究这个问题时,我似乎得到了相互矛盾的答案。有人说你在同一组数据上使用randomForest时只能使用combine()。其他人说你可以使用combine()。
我希望(希望,梦想)做的是将120,000行数据分成6个数据帧,每个数据帧包含20,000行,并在6个数据帧的每一个上执行randomForest。我的希望是我可以使用combine()函数然后将所有6个的结果组合在一起。那可能吗?
对此事的任何帮助将不胜感激。
答案 0 :(得分:2)
几个小时似乎很多时间。您确定在优化的机器上运行吗?也许您可以在Linux和AWS EC2上进行实验。另请查看自{几个星期http://arxiv.org/abs/1508.04409以来已经出去的ranger
https://cran.r-project.org/web/packages/ranger/index.html