Java:使用spark批处理作业(不是流式传输)从Kafka读取

时间:2018-03-29 09:50:13

标签: java apache-spark apache-kafka

我想写一个火花批处理作业,每小时醒来并从Kafka读取。为此,我使用 org.apache.spark.streaming.kafka.KafkaUtils #createRDD 。但它需要一个偏移范围(fromOffset到untilOffset)。

有可能吗?我是否会去写作方向?

直到现在我用Google搜索,我找到了这些方法来获得抵消,即 org.apache.spark.streaming.kafka.KafkaCluster #getEarliestLeaderOffsets &的 org.apache.spark.streaming.kafka.KafkaCluster#getLatestLeaderOffsets 即可。但我没有得到如何使用这些方法来创建RDD(或获取offsetRange)。

0 个答案:

没有答案