在PySpark中使用Kafka Stream,是否可以在不创建新的消费者群体的情况下寻求Kafka主题的开头?
例如,我有以下代码段:
...
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 pyspark-shell'
from pyspark import SparkContext
from pyspark.sql import SparkSession
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
sc = SparkContext('local[2]', appName="MyStreamingApp_01")
sc.setLogLevel("INFO")
ssc.StreamingContext(sc, 30)
spark = SparkSession(sc)
kafkaStream = KafkaUtils.createStream(ssc, zookeeper_ip, 'group-id', {'messages': 1})
counted = kafkaStream.count()
...
我的目标是按照
的方式做点什么kafkaStream.seekToBeginningOfTopic()
目前,我正在创建一个新的消费者群体,以便从该主题的开头重新阅读,例如:
kafkaStream = KafkaUtils.createStream(ssc, zookeeper, 'group-id-2', {'messages': 1}, {"auto.offset.reset": "smallest"})
这是使用PySpark从一开始就使用主题的正确方法吗?