与多个接收器进行pyspark并行处理

时间:2015-09-08 16:06:36

标签: python parallel-processing apache-spark pyspark

我试图用Spark实现并行处理。我想在spark中创建多个接收器(不仅仅是线程)来接收来自kafka的流数据。我找到了一个链接,指示如何使用scala(请参阅下面的链接)。但我无法找到类似的pyspark代码。有人可以帮忙吗?

why I only can see one spark streaming kafkaReceiver

1 个答案:

答案 0 :(得分:-1)

numStreams = 5
kafkaStreams = [KafkaUtils.createStream(...) for _ in range (numStreams)]
unifiedStream = streamingContext.union(*kafkaStreams)
unifiedStream.pprint()

您可以从this教程获得所有其他信息。部分 - 数据接收中的并行度。