我们正在尝试使用h2o运行R2的coxph模型,Rsparkling用于具有300 GB列的6 GB大型数据集,无论我们采用哪种配置进行火花处理,都遇到了内存问题。
按照h2o,我们应该只有4倍于数据大小的较大集群,但是我们甚至将128GB的4个工作节点与128个主节点结合在一起。但是仍然存在其提出的问题。
请帮助我们使用当前数据集选择运行h2o所需的火花配置。我们能够为50,000条记录运行相同的代码。
我们有300列用于X和2对互动项。偏移列和权重。
您可以在此处找到示例代码,但没有300列。我不知道如何提供完美的输入文件和完整的代码来复制问题。如果您希望查看包含300列的实际代码,请告诉我。
std::less<T>
答案 0 :(得分:1)
这一切都取决于停止列和分层列的基数。我只会尝试一个具有32-64GB内存的单个节点。
请分享有关数据集的详细信息。
答案 1 :(得分:1)
我将尝试隔离工作负载的不同阶段,甚至在一次火花作业中进行任何数据准备,然后在完全没有火花的新JVM中进行H2O-3模型训练。然后,无论导致OOM的哪个阶段,请确保打开Java级GC日志记录。
-XX:PrintGCDetails
-XX:PrintGCTimeStamps
获取GC日志记录输出并将其馈送到http://gceasy.io,看看曲线是什么样。
这将告诉您内存增长是逐渐增长还是突然爆发。