使用的工具:
我从我的Zeppelin笔记本开始在INTERNAL模式下启动H2O,因为我的环境是YARN。我使用的是基本命令:
from pysparkling import *
hc = H2OContext.getOrCreate(spark)
import h2o
我的问题是我在弱机器上安装了zeppelin服务器,当我运行代码FROM ZEPPELIN时,H2O集群会自动使用其IP在该计算机上启动。驱动程序在那里运行,我受到H2O消耗的驱动程序内存的限制。我有4个强大的工作节点机器,100GB和许多核心,集群在我运行我的模型时使用它们,但我希望H2O集群在这些工作机器之一上运行并在那里运行驱动程序,但我没有'找到一种方法迫使H2O去做。
我想知道是否有解决方案,或者我是否必须在工作机器上安装zeppelin服务器。
如果可以提供解决方案,将不胜感激
答案 0 :(得分:0)
以纱线群集模式开始工作。这将使驱动程序作为另一个YARN容器运行。
这是描述差异的另一个stackoverflow帖子: