H2O苏打水建筑

时间:2018-04-06 12:28:08

标签: apache-spark h2o

我有一个连接到Sparkling Water实例的Jupyter笔记本,在Hadoop集群上运行。

这是我对处理工作原理的假设:

  1. 笔记本中的用户代码将提交给正在运行的Sparkling Water实例。
  2. Sparkling Water将其转换为使用Spark API命令。
  3. 它作为Spark作业提交给群集。
  4. Spark执行任何其他工作。
  5. 我是对的吗? 这是它的工作原理吗?

    我想解释的更大的话题是Sparkling Water是否以分布式方式运行H2O算法并利用可用的群集资源。

1 个答案:

答案 0 :(得分:1)

  

是Sparkling Water是否以分布式方式运行H2O算法并利用可用的群集资源

Sparkling Water在Spark执行程序中嵌入H2O节点。因此,Sparkling Water工作将以与核心H2O-3完全相同的方式训练H2O模型(图中没有Spark)。

H2O群集不喜欢节点加入或离开一次,因此您必须将spark dynamicAllocation属性设置为disabled。

Sparkling Water的Spark-ness 没有性能提升或降低。相反,它是将H2O机器学习模型引入Spark环境或管道的友好方式。

这是一个指向Sparkling Water设计文档的指针,其中有一张图片说明了上述内容 - http://docs.h2o.ai/sparkling-water/2.3/latest-stable/doc/design/design.html