使用PySpark寻找Kafka主题的开头

时间:2017-09-08 20:50:31

标签: apache-spark pyspark

在PySpark中使用Kafka Stream,是否可以在不创建新的消费者群体的情况下寻求Kafka主题的开头?

例如,我有以下代码段:

...
import os

os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 pyspark-shell'
from pyspark import SparkContext
from pyspark.sql import SparkSession
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils

sc = SparkContext('local[2]', appName="MyStreamingApp_01")
sc.setLogLevel("INFO")
ssc.StreamingContext(sc, 30)
spark = SparkSession(sc)

kafkaStream = KafkaUtils.createStream(ssc, zookeeper_ip, 'group-id', {'messages': 1})

counted = kafkaStream.count()
...

我的目标是按照

的方式做点什么
kafkaStream.seekToBeginningOfTopic()

目前,我正在创建一个新的消费者群体,以便从该主题的开头重新阅读,例如:

kafkaStream = KafkaUtils.createStream(ssc, zookeeper, 'group-id-2', {'messages': 1}, {"auto.offset.reset": "smallest"})

这是使用PySpark从一开始就使用主题的正确方法吗?

0 个答案:

没有答案