为什么我们需要kafka将数据提供给apache spark

时间:2017-03-08 14:00:21

标签: apache-spark streaming apache-kafka spark-streaming

我正在阅读关于spark及其real-time stream处理的内容。我很困惑,如果spark本身可以从源代码中读取流,例如 twitter 文件,那么为什么我们需要kafka将数据提供给spark?如果有人向我解释,如果我们将sparkkafka一起使用,那将会很有用。谢谢。

2 个答案:

答案 0 :(得分:6)

Kafka提供输入流的解耦和缓冲。

以Twitter数据为例,afaik连接到twitter api并获得与您指定的标准匹配的连续推文。如果你现在关闭你的Spark作业一小时对你服务器上的一些好处或推出一个新版本,那么你将错过那个小时的推文。

现在想象一下你把Kafka放在你的Spark作业面前,并且有一个非常简单的摄取线程,除了连接到api并将推文写入Kafka,Spark作业从中检索它们。由于Kafka将所有内容保留到光盘,因此您可以关闭处理作业,执行维护以及重新启动时,它们将从脱机时检索所有数据。

此外,如果您以显着的方式更改处理作业并希望重新处理上周的数据,如果您的链中有Kafka(如果您将保留时间设置得足够高),则可以轻松地执行此操作 - 您' d只需简单地推出新工作并更改Kafka中的偏移量,以便您的工作重新读取旧数据,一旦完成,您的数据存储将与您的新处理模型保持同步。

卡夫卡背后的人之一Jay Kreps所写的一般原则有一个good article,如果你想了解更多的话就给你一个阅读。

答案 1 :(得分:0)

卡夫卡将所有东西分离,消费者 - 生产者不必彼此了解。 Kafka提供基于主题的pub-sub模型。

您可以从多个来源将数据(消息)写入kafka中的任何主题,而消费者(spark或任何内容)可以根据主题使用数据。

多个消费者可以使用来自同一主题的数据,因为kafka会在一段时间内存储数据。

但最后,如果你真的需要一个经纪人,这取决于你的用例。