了解苏打水

时间:2017-01-06 07:47:33

标签: h2o sparkling-water

我是Sparkling Water的新手,我想问一些简单的问题:

  1. Sparking Water是否支持Spark MLlib和H2O提供的所有算法

  2. Sparkling Water本身是否提供Spark MLlib和H2O不支持的算法?

  3. 如果我想在Sparkling Water上下文中使用纯Spark MLlib编写代码,我是否应该使用H2OContext或Sparkling Water相关API?

  4. 根据以上3个问题,我认为我想要了解的是Sparkling Water的工作原理。 (就目前而言,我知道的不仅仅是Sparkling Water将Spark和H2O结合在一起)

    感谢。

    Questions-2017-01-11
    

    我能够成功运行AirlinesWithWeatherDemo2示例run-example.sh,但我有两个问题:

    1. H2O Flow web ui在应用程序运行期间打开(可以通过54321端口访问),但是当应用程序完成时, 打开54321端口的进程也被关闭(web ui不再可访问),我会问我运行该示例时,此流程UI提供的功能是什么,因为它可能是短暂的

    2. 苏打水是为了集成Spark和H2O,当我提交示例时,我只需要sparkling-water-assembly_2.11-2.0.3-all作为应用程序jar(它包含示例类) , 看来如果我想运行苏打水无法提供的H2O算法,我应该将H2O罐(h2o.jar)添加为依赖罐?

1 个答案:

答案 0 :(得分:2)

  1. 不是真的,我们正在努力包装Spark的MLlib算法,这样你就可以从H2O的FlowUI运行它们并包装H2O的算法,这样你就可以在MLlib&#中使用它们但是,管道很简单。

  2. 只有在想要运行H2O特定功能时才需要H2OContext。

  3. Sparkling Water只允许您在Spark节点内运行H2O节点,而不是手动引导H2O集群。这也允许您在H2O和Spark中使用数据。

    @Edit:

    1. 没有,但你可能有一个长期运行的Spark工作,在你做一些初始计算之后你不会退出但是锁定工作(并且需要以某种方式杀死它)。然后您可以正常使用FlowUI。我们每次只启动HTTP服务器(甚至是演示)。没理由不这样做。

    2. 您可以使用我们的一个小滴 - https://github.com/h2oai/h2o-droplets/tree/master/sparkling-water-droplet这是一个模板项目,您在主类中添加逻辑并运行./gradlew shadowJar并使用{{1}提交jar },它已经包含了所有的罐子。或者,正如您所提到的,您需要提供(尽管spark-submit--jars)所有必要的依赖项,包括H2O.jar。