我目前正在将相当大的数据集读入解析火花(一个数据帧等于超过100万行)。为了有效地利用h2o.gbm()模型,我将多个数据帧连接在一起以创建更大的训练集。当我运行以下代码时:
training2 <- as_h2o_frame(sc, Training, strict_version_check = FALSE)
Error: java.lang.OutOfMemoryError: GC overhead limit exceeded
我试图通过运行以下命令为java提供更多内存:
options(java.parameters = "-Xmx100G")
我目前正在运行一个32核vm,内存460gb,火花版2.0.2,rsparkling 2.0.10和h2o 3.10.5.1。事实上,当我在较小的数据集上运行代码时,问题确实会消失。对此问题的任何想法或见解将不胜感激。