在Spark批处理作业中从kafka读取(fromOffset到Offset)

时间:2018-02-06 16:50:57

标签: scala apache-spark apache-kafka kafka-consumer-api

我在question上看到我们可以使用org.apache.spark.streaming.kafka.KafkaUtils#createRDD在火花批处理作业中读取Kafka的消息,但是这种方法需要一个偏移范围,需要'从偏移'和'直到偏移'。我从org.apache.spark.streaming.kafka.KafkaCluster#getLatestLeaderOffsets方法获得了'from offset'但是如何获得直到偏移?我正在使用kafka-2.1.1-0.9.0.1

1 个答案:

答案 0 :(得分:0)

您可以使用GetOffsetShell从任何主题获取最新的偏移量

bin/kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list localhost:9092 --topic myTopic --time -1

这将返回:

myTopic:12341:47841

表示47841是主题 myTopic

的最新偏移量