使用Spark结构化流2.2批量API进行Kafka偏移管理

时间:2018-01-15 17:29:52

标签: apache-spark apache-kafka spark-streaming

只是想知道Kafka偏移的检查点是否可以与Spark结构化流(2.2)批处理API一起使用,还是我们需要管理偏移量?

1 个答案:

答案 0 :(得分:2)

如果您指的是批量DataFrame阅读器(例如spark.read.format("kafka"))而不是流式阅读器(例如spark.readStream.format("kafka")),那么不,没有内置的偏移管理。由于它是批处理API,因此您通常会按照here所述自行指定偏移量。对于流式传输,Spark可以为您进行偏移管理,因为它会在不断处理时读取多个批次范围。