我可以在h2o上使用的最大数据集大小是多少。
具体而言,数据集大小可以大于每个节点上的ram / diskspace。
我有大约25 GB磁盘空间和40 gb ram的节点,我想使用大约70 gb的数据集。
谢谢
获取错误:
Exception in thread "qtp1392425346-39505" java.lang.OutOfMemoryError: GC overhead limit exceeded
答案 0 :(得分:2)
H2O中没有最大数据集大小。需求由您创建的群集的大小来定义。有关如何告诉H2O你最喜欢的最大堆大小here的更多信息。
如果您的数据集是70G,并且您的节点只有40G RAM,那么您将不得不使用多节点群集。我们告诉人们的一般经验法则是您的H2O群集应该是磁盘上数据大小的3倍。但是,它高度依赖于您使用的算法。
70G * 3 = 210G,因此您可能想尝试5节点群集。或者,您可以从较少的节点开始,尝试运行代码并根据需要增加群集的大小。