H2O使用大型数据集大小

时间:2017-07-14 15:47:46

标签: h2o

我可以在h2o上使用的最大数据集大小是多少。

具体而言,数据集大小可以大于每个节点上的ram / diskspace。

我有大约25 GB磁盘空间和40 gb ram的节点,我想使用大约70 gb的数据集。

谢谢

获取错误:

Exception in thread "qtp1392425346-39505" java.lang.OutOfMemoryError: GC overhead limit exceeded

1 个答案:

答案 0 :(得分:2)

H2O中没有最大数据集大小。需求由您创建的群集的大小来定义。有关如何告诉H2O你最喜欢的最大堆大小here的更多信息。

如果您的数据集是70G,并且您的节点只有40G RAM,那么您将不得不使用多节点群集。我们告诉人们的一般经验法则是您的H2O群集应该是磁盘上数据大小的3倍。但是,它高度依赖于您使用的算法。

70G * 3 = 210G,因此您可能想尝试5节点群集。或者,您可以从较少的节点开始,尝试运行代码并根据需要增加群集的大小。