如何在kappa架构中使用datatorrent?

时间:2016-07-20 10:53:21

标签: apache-spark apache-storm apache-apex lambda-architecture

我读了很多关于lambda和kappa架构的内容,我们需要使用Apache Spark或Apache Storm。我刚刚发现了一个名为DataTorrent的新工具,它可以进行批量和实时处理。我想知道DataTorrent是否可以同时执行lambda(或kappa)架构的批处理和速度层?

干杯,

2 个答案:

答案 0 :(得分:1)

Apache apex或Datatorrent RTS允许您的团队在单个处理框架上进行开发,测试,调试和操作。

虽然在Apache apex文档中没有明确提及kappa架构,IMO可以用它来提供kappa架构。

Apache apex将为容错,检查点和恢复提供内置支持。因此,您可以依靠Apex中的单个数据流DAG来获得具有低延迟的可靠结果。在Apex上使用DAG定义应用程序时,无需单独的批处理图层和速度图层。

但请注意,Apache Apex是流计算引擎的一个例子。对于完整的Kappa架构,您可以组合使用 日志存储+流计算引擎+服务层存储。

答案 1 :(得分:1)

DataTorrent可用于满足Kappa架构要求。您可以同时处理批量数据和实时流数据。

Datatorrent是连续流模型,其中批处理数据像流一样通过DAG流动,而不像Spark那样,流数据分批流动。

您可能需要使用不同的操作员端口从不同的输入源输入数据,并且数据的内存计算由端口上的平台调用处理。

就像有一个接收器(DT中的操作员)由两个管道(输入端口)供电。