应用错误收集

时间：2018-03-06 03:16:58

标签： apache-spark pyspark apache-kafka spark-streaming-kafka

我现在在Python中使用kafka。想知道是否需要Spark Kafka，或者我们可以使用kafka 通过pyKafka。

我担心Spark会在此过程中产生开销（pyspark），如果我们不使用任何火花功能，只需要Kafka流媒体。

使用Pyspark和kafka spark有什么不方便？

答案 0 :(得分：0)

这完全取决于手头的用例，正如评论中提到的那样，但是几个月前我通过相同的情况，我会尝试转移我的知识以及我如何决定转移到kafka-streams而不是火花流。

在我的用例中，我们只使用spark从kafka进行实时流式传输，不进行任何类型的map-reduce，windowing，filtering，aggregation。

鉴于上述情况，我根据3维进行了比较：

下图显示了我所做的比较表，以说服我的团队迁移以使用kafka-streams并抑制spark，图片中未添加Cost，因为它完全取决于您的群集大小（HeadNode-WorkerNodes）。

<强> V·I。注意：同样，这是基于你的情况，我只是试着给你一个如何进行比较的指针，但是火花本身有很多好处，这与在这个问题中描述它无关。