Question

在PySpark中使用Kafka Stream，是否可以在不创建新的消费者群体的情况下寻求Kafka主题的开头？

例如，我有以下代码段：

...
import os

os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 pyspark-shell'
from pyspark import SparkContext
from pyspark.sql import SparkSession
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils

sc = SparkContext('local[2]', appName="MyStreamingApp_01")
sc.setLogLevel("INFO")
ssc.StreamingContext(sc, 30)
spark = SparkSession(sc)

kafkaStream = KafkaUtils.createStream(ssc, zookeeper_ip, 'group-id', {'messages': 1})

counted = kafkaStream.count()
...

我的目标是按照

的方式做点什么

kafkaStream.seekToBeginningOfTopic()

目前，我正在创建一个新的消费者群体，以便从该主题的开头重新阅读，例如：

kafkaStream = KafkaUtils.createStream(ssc, zookeeper, 'group-id-2', {'messages': 1}, {"auto.offset.reset": "smallest"})

这是使用PySpark从一开始就使用主题的正确方法吗？

使用PySpark寻找Kafka主题的开头

0 个答案: