强制H2O Sparkling Water集群在YARN模式下在特定机器上启动

时间:2018-03-21 10:25:41

标签: apache-spark h2o apache-zeppelin sparkling-water

使用的工具:

  • Spark 2
  • 苏打水(H2O)
  • Zeppeling notebook
  • Pyspark代码

我从我的Zeppelin笔记本开始在INTERNAL模式下启动H2O,因为我的环境是YARN。我使用的是基本命令:

from pysparkling import *
hc = H2OContext.getOrCreate(spark)
import h2o

我的问题是我在弱机器上安装了zeppelin服务器,当我运行代码FROM ZEPPELIN时,H2O集群会自动使用其IP在该计算机上启动。驱动程序在那里运行,我受到H2O消耗的驱动程序内存的限制。我有4个强大的工作节点机器,100GB和许多核心,集群在我运行我的模型时使用它们,但我希望H2O集群在这些工作机器之一上运行并在那里运行驱动程序,但我没有'找到一种方法迫使H2O去做。

我想知道是否有解决方案,或者我是否必须在工作机器上安装zeppelin服务器。

如果可以提供解决方案,将不胜感激

1 个答案:

答案 0 :(得分:0)

以纱线群集模式开始工作。这将使驱动程序作为另一个YARN容器运行。

这是描述差异的另一个stackoverflow帖子: