我现在在Python中使用kafka。 想知道是否需要Spark Kafka,或者我们可以使用kafka 通过pyKafka。
我担心Spark会在此过程中产生开销(pyspark), 如果我们不使用任何火花功能,只需要Kafka流媒体。
使用Pyspark和kafka spark有什么不方便?
答案 0 :(得分:0)
这完全取决于手头的用例,正如评论中提到的那样,但是几个月前我通过相同的情况,我会尝试转移我的知识以及我如何决定转移到kafka-streams而不是火花流。
在我的用例中,我们只使用spark从kafka进行实时流式传输,不进行任何类型的map-reduce,windowing,filtering,aggregation。
鉴于上述情况,我根据3维进行了比较: