我正在实施'直接' Spark 1.3.1中kafka流的方法 https://spark.apache.org/docs/1.3.1/streaming-kafka-integration.html 根据我的理解,有两种方法可以解决“自动偏移”问题。' auto.offset.reset'可以设置:"最小","最大"。我正在观察的行为(并且让我知道这是否是预期的)是"最大的"将重新开始并接收任何新的传入数据 - 而最小的"将从0开始并读到最后,但不会收到任何新的传入数据。显然,最好能够从头开始并接收新的传入数据。我确实看到了每个批次消耗的偏移量(在文档中),但我不确定这在这里有什么用处。感谢。
答案 0 :(得分:1)
看起来我错了 - “最小的”实际上会继续从最后读取新的/传入数据。