应用错误收集

时间：2018-04-06 12:28:08

标签： apache-spark h2o

我有一个连接到Sparkling Water实例的Jupyter笔记本，在Hadoop集群上运行。

这是我对处理工作原理的假设：

我是对的吗？这是它的工作原理吗？

我想解释的更大的话题是Sparkling Water是否以分布式方式运行H2O算法并利用可用的群集资源。

答案 0 :(得分：1)

是Sparkling Water是否以分布式方式运行H2O算法并利用可用的群集资源

是

Sparkling Water在Spark执行程序中嵌入H2O节点。因此，Sparkling Water工作将以与核心H2O-3完全相同的方式训练H2O模型（图中没有Spark）。

H2O群集不喜欢节点加入或离开一次，因此您必须将spark dynamicAllocation属性设置为disabled。

Sparkling Water的Spark-ness 没有性能提升或降低。相反，它是将H2O机器学习模型引入Spark环境或管道的友好方式。

这是一个指向Sparkling Water设计文档的指针，其中有一张图片说明了上述内容 - http://docs.h2o.ai/sparkling-water/2.3/latest-stable/doc/design/design.html。