apache beam是否有自己的本地运行程序,或者是否像Spark这样的其他API构建?梁是否是Apache Spark的某种包装?
答案 0 :(得分:1)
Apache Beam是一种用于定义数据处理流水线的编程模型(API)。它包括一组用于定义处理管道的SDK,以及一组用于执行它们的运行程序。
Runners通常在现有的并行处理引擎上执行管道,包括Apache Apex,Apache Flink,Apache Spark和Google Cloud Dataflow。目前正在开发的跑步者包括Apache Gearpump和Apache Storm / JStorm / Twitter Heron,还有几个正处于探索阶段。
Apache Beam项目包括Direct Runner,它在本地计算机上执行管道。它旨在验证管道是否尽可能地遵循Apache Beam模型。 Direct Runner不是专注于有效的流水线执行,而是执行额外的检查,以确保用户不依赖于模型无法保证的语义。