Question

使用的工具：

Spark 2
苏打水（H2O）
Zeppeling notebook
Pyspark代码

我从我的Zeppelin笔记本开始在INTERNAL模式下启动H2O，因为我的环境是YARN。我使用的是基本命令：

from pysparkling import *
hc = H2OContext.getOrCreate(spark)
import h2o

我的问题是我在弱机器上安装了zeppelin服务器，当我运行代码FROM ZEPPELIN时，H2O集群会自动使用其IP在该计算机上启动。驱动程序在那里运行，我受到H2O消耗的驱动程序内存的限制。我有4个强大的工作节点机器，100GB和许多核心，集群在我运行我的模型时使用它们，但我希望H2O集群在这些工作机器之一上运行并在那里运行驱动程序，但我没有＆＃39;找到一种方法迫使H2O去做。

我想知道是否有解决方案，或者我是否必须在工作机器上安装zeppelin服务器。

如果可以提供解决方案，将不胜感激

Answer 1

以纱线群集模式开始工作。这将使驱动程序作为另一个YARN容器运行。

这是描述差异的另一个stackoverflow帖子：

Spark yarn cluster vs client - how to choose which one to use?

强制H2O Sparkling Water集群在YARN模式下在特定机器上启动

1 个答案: