我想写一个火花批处理作业,每小时醒来并从Kafka读取。为此,我使用 org.apache.spark.streaming.kafka.KafkaUtils #createRDD 。但它需要一个偏移范围(fromOffset到untilOffset)。
有可能吗?我是否会去写作方向?
直到现在我用Google搜索,我找到了这些方法来获得抵消,即 org.apache.spark.streaming.kafka.KafkaCluster #getEarliestLeaderOffsets &的 org.apache.spark.streaming.kafka.KafkaCluster#getLatestLeaderOffsets 即可。但我没有得到如何使用这些方法来创建RDD(或获取offsetRange)。