针对在H2o苏打水中具有300列(6 GB)的大型数据集运行coxph模型

时间:2019-11-27 20:10:08

标签: h2o sparkling-water

我们正在尝试使用h2o运行R2的coxph模型,Rsparkling用于具有300 GB列的6 GB大型数据集,无论我们采用哪种配置进行火花处理,都遇到了内存问题。

按照h2o,我们应该只有4倍于数据大小的较大集群,但是我们甚至将128GB的4个工作节点与128个主节点结合在一起。但是仍然存在其提出的问题。

请帮助我们使用当前数据集选择运行h2o所需的火花配置。我们能够为50,000条记录运行相同的代码。

我们有300列用于X和2对互动项。偏移列和权重。

您可以在此处找到示例代码,但没有300列。我不知道如何提供完美的输入文件和完整的代码来复制问题。如果您希望查看包含300列的实际代码,请告诉我。

std::less<T>

2 个答案:

答案 0 :(得分:1)

这一切都取决于停止列和分层列的基数。我只会尝试一个具有32-64GB内存的单个节点。

请分享有关数据集的详细信息。

答案 1 :(得分:1)

我将尝试隔离工作负载的不同阶段,甚至在一次火花作业中进行任何数据准备,然后在完全没有火花的新JVM中进行H2O-3模型训练。然后,无论导致OOM的哪个阶段,请确保打开Java级GC日志记录。

-XX:PrintGCDetails
-XX:PrintGCTimeStamps

获取GC日志记录输出并将其馈送到http://gceasy.io,看看曲线是什么样。

这将告诉您内存增长是逐渐增长还是突然爆发。