Apache Beam上的Spark.ml

时间:2018-11-27 20:25:47

标签: apache-beam

是否可以在Beam管道中使用Spark库,例如Spark.ml? 根据我的理解,您将使用“ beam语法”编写管道,并让Beam 使用spark作为跑步者在spark上执行它。 因此,我看不到如何在Beam中使用spark.ml。

但是也许我在这里出了点问题? 是否有人已经尝试使用它,如果没有,在Beam中是否存在其他ML库用于本机使用(Tensorflow Transform除外)?

非常感谢, 乔纳森

1 个答案:

答案 0 :(得分:1)

Apache Beam统一流和批处理数据处理。它具有可移植性,意味着SDK可以用任何语言编写,并且可以在具有足够功能的任何数据处理框架中执行(请参阅:runners)。 ML不是主要关注点。因此,its programming model没有定义任何与ML一起使用的统一API。

但是id并不意味着您不能将其与ML库一起使用来预处理ML模型进行训练或推理所需的数据。非常适合为您做。 Beam带有build IOs组。这可能有助于您从许多来源获取数据。