卡夫卡流媒体或火花流媒体

时间:2018-03-06 03:16:58

标签: apache-spark pyspark apache-kafka spark-streaming-kafka

我现在在Python中使用kafka。 想知道是否需要Spark Kafka,或者我们可以使用kafka 通过pyKafka。

我担心Spark会在此过程中产生开销(pyspark), 如果我们不使用任何火花功能,只需要Kafka流媒体。

使用Pyspark和kafka spark有什么不方便?

1 个答案:

答案 0 :(得分:0)

这完全取决于手头的用例,正如评论中提到的那样,但是几个月前我通过相同的情况,我会尝试转移我的知识以及我如何决定转移到kafka-streams而不是火花流。

在我的用例中,我们只使用spark从kafka进行实时流式传输,进行任何类型的map-reduce,windowing,filtering,aggregation。

鉴于上述情况,我根据3维进行了比较:

  1. 学术性
  2. 的DevOps
  3. 费用
  4. 下图显示了我所做的比较表,以说服我的团队迁移以使用kafka-streams并抑制spark,图片中未添加Cost,因为它完全取决于您的群集大小(HeadNode-WorkerNodes)。

    <强> V·I。注意: 同样,这是基于你的情况,我只是试着给你一个如何进行比较的指针,但是火花本身有很多好处,这与在这个问题中描述它无关。

    enter image description here