我正在使用Java Spark API,对于KafkaUtils.createDirectStream,我想跟踪偏移量。 有一个名为fromOffset的参数,它记录Kafka主题的分区中的偏移量。对于第一次运行,我不知道我将拥有多少分区,那么我该如何设置此参数? 我需要在Kafka参数中设置“auto.offset.reset”吗? 如果是,它会影响我的代码从已知的偏移中恢复吗?
答案 0 :(得分:0)
您有两种选择:
如果您没有关于partion的任何信息,请不要将该参数提供给createDirectStream。 createDirectStream方法有几个含义。在这种情况下,每个topicPartition将使用最早或最新的偏移量(基于auto.offset.reset
param)
您可以使用常用的kafka API找到分区,偏移量。例如,查看How to find the offset range for a topic-partition in Kafka 0.10?