应用错误收集

R大型数据集和xgboost cv

时间：2018-08-01 09:32:10

标签： r memory xgboost

很抱歉，这个问题太广泛了。

我正在通过R中的cv.xgb运行大型数据集（在64Gb 4核Linux机器上大约为20Gb）。我目前遇到两个问题：

尝试10倍cv会使R崩溃（xgboost没有错误，会话刚刚终止）。
尝试5倍，该代码将运行，但会保留100Gb的虚拟内存，并且会降低爬网速度。

我对为什么代码可以做5折而不是10折感到困惑，我本以为每折都会被分开对待，而花费的时间却是原来的两倍。 xgboost在所有方面都在做什么？

对于交换问题，有什么方法可以更好地管理内存以避免速度降低？ 5倍的简历所花的时间是在相同数量的树木上单次运行所花时间的10倍以上。

有没有更适合大型数据集的软件包？还是只需要更多RAM？

0 个答案:

没有答案