R大型数据集和xgboost cv

时间:2018-08-01 09:32:10

标签: r memory xgboost

很抱歉,这个问题太广泛了。

我正在通过R中的cv.xgb运行大型数据集(在64Gb 4核Linux机器上大约为20Gb)。我目前遇到两个问题:

  1. 尝试10倍cv会使R崩溃(xgboost没有错误,会话刚刚终止)。
  2. 尝试5倍,该代码将运行,但会保留100Gb的虚拟内存,并且会降低爬网速度。

我对为什么代码可以做5折而不是10折感到困惑,我本以为每折都会被分开对待,而花费的时间却是原来的两倍。 xgboost在所有方面都在做什么?

对于交换问题,有什么方法可以更好地管理内存以避免速度降低? 5倍的简历所花的时间是在相同数量的树木上单次运行所花时间的10倍以上。

有没有更适合大型数据集的软件包?还是只需要更多RAM?

0 个答案:

没有答案