Spark Streaming Kafka初始偏移量

时间:2017-11-10 22:59:12

标签: apache-spark apache-kafka spark-streaming

我正在使用Java Spark API,对于KafkaUtils.createDirectStream,我想跟踪偏移量。 有一个名为fromOffset的参数,它记录Kafka主题的分区中的偏移量。对于第一次运行,我不知道我将拥有多少分区,那么我该如何设置此参数? 我需要在Kafka参数中设置“auto.offset.reset”吗? 如果是,它会影响我的代码从已知的偏移中恢复吗?

1 个答案:

答案 0 :(得分:0)

您有两种选择:

  • 如果您没有关于partion的任何信息,请不要将该参数提供给createDirectStream。 createDirectStream方法有几个含义。在这种情况下,每个topicPartition将使用最早或最新的偏移量(基于auto.offset.reset param)

  • 您可以使用常用的kafka API找到分区,偏移量。例如,查看How to find the offset range for a topic-partition in Kafka 0.10?