我有一个连接到Sparkling Water实例的Jupyter笔记本,在Hadoop集群上运行。
这是我对处理工作原理的假设:
我是对的吗? 这是它的工作原理吗?
我想解释的更大的话题是Sparkling Water是否以分布式方式运行H2O算法并利用可用的群集资源。
答案 0 :(得分:1)
是Sparkling Water是否以分布式方式运行H2O算法并利用可用的群集资源
是
Sparkling Water在Spark执行程序中嵌入H2O节点。因此,Sparkling Water工作将以与核心H2O-3完全相同的方式训练H2O模型(图中没有Spark)。
H2O群集不喜欢节点加入或离开一次,因此您必须将spark dynamicAllocation属性设置为disabled。
Sparkling Water的Spark-ness 没有性能提升或降低。相反,它是将H2O机器学习模型引入Spark环境或管道的友好方式。
这是一个指向Sparkling Water设计文档的指针,其中有一张图片说明了上述内容 - http://docs.h2o.ai/sparkling-water/2.3/latest-stable/doc/design/design.html。