Spark 1.3.1中Kafka Direct方法的偏移量

时间:2015-06-11 17:47:09

标签: apache-spark spark-streaming apache-kafka

我正在实施'直接' Spark 1.3.1中kafka流的方法 https://spark.apache.org/docs/1.3.1/streaming-kafka-integration.html 根据我的理解,有两种方法可以解决“自动偏移”问题。' auto.offset.reset'可以设置:"最小","最大"。我正在观察的行为(并且让我知道这是否是预期的)是"最大的"将重新开始并接收任何新的传入数据 - 而最小的"将从0开始并读到最后,但不会收到任何新的传入数据。显然,最好能够从头开始并接收新的传入数据。我确实看到了每个批次消耗的偏移量(在文档中),但我不确定这在这里有什么用处。感谢。

1 个答案:

答案 0 :(得分:1)

看起来我错了 - “最小的”实际上会继续从最后读取新的/传入数据。