pyspark支持spark-streaming-kafka-0-10 lib?

时间:2017-08-05 12:53:22

标签: pyspark apache-kafka spark-streaming-kafka

我的kafka群集版本是0.10.0.0,我想使用pyspark流来读取kafka数据。但在Spark Streaming + Kafka集成指南中,http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html 没有python代码示例。 那么pyspark可以使用spark-streaming-kafka-0-10来集成kafka吗?

提前感谢您的帮助!

2 个答案:

答案 0 :(得分:1)

我还使用Kafka 0.10.0群集的spark streaming。在您的代码中添加以下行后,您就可以了。

spark.jars.packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.0

这是python中的一个示例:

# Initialize SparkContext
sc = SparkContext(appName="sampleKafka")

# Initialize spark stream context
batchInterval = 10
ssc = StreamingContext(sc, batchInterval)

# Set kafka topic
topic = {"myTopic": 1}

# Set application groupId
groupId = "myTopic"

# Set zookeeper parameter
zkQuorum = "zookeeperhostname:2181"

# Create Kafka stream 
kafkaStream = KafkaUtils.createStream(ssc, zkQuorum, groupId, topic)

#Do as you wish with your stream
# Start stream
ssc.start()
ssc.awaitTermination()

答案 1 :(得分:0)

当您的经纪人为0.10或更高版本时,可以使用spark-streaming-kafka-0-8。 spark-streaming-kafka-0-8支持较新的代理版本,而streaming-kafka-0-10不支持较旧的代理版本。截至目前,streaming-kafka-0-10仍处于试验阶段,尚无Python支持。