Question

我一直在做消费和通过kafka生成数据的火花流工作。我使用了directDstream，所以我不得不自己管理偏移，我们采用redis来编写和读取偏移量。现在有一个问题，当我启动我的客户端时，我的客户端需要从redis获得偏移量，而不是kafka中存在的偏移量本身如何显示我编写代码？现在我编写了下面的代码：

   kafka_stream = KafkaUtils.createDirectStream(
    ssc,
    topics=[config.CONSUME_TOPIC, ],
    kafkaParams={"bootstrap.servers": config.CONSUME_BROKERS,
                 "auto.offset.reset": "largest"},
    fromOffsets=read_offset_range(config.OFFSET_KEY))

但是我认为fromOffsets是火花流客户端推出时的值（来自redis），而不是在运行期间。谢谢你的帮助。

Answer 1

如果我理解正确，您需要手动设置偏移量。我就是这样做的：

from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
from pyspark.streaming.kafka import TopicAndPartition

stream = StreamingContext(sc, 120) # 120 second window

kafkaParams = {"metadata.broker.list":"1:667,2:6667,3:6667"}
kafkaParams["auto.offset.reset"] = "smallest"
kafkaParams["enable.auto.commit"] = "false"

topic = "xyz"
topicPartion = TopicAndPartition(topic, 0)
fromOffset = {topicPartion: long(PUT NUMERIC OFFSET HERE)}

kafka_stream = KafkaUtils.createDirectStream(stream, [topic], kafkaParams, fromOffsets = fromOffset)

Spark Streaming kafka偏移管理

1 个答案: