Question

我试图用Spark实现并行处理。我想在spark中创建多个接收器（不仅仅是线程）来接收来自kafka的流数据。我找到了一个链接，指示如何使用scala（请参阅下面的链接）。但我无法找到类似的pyspark代码。有人可以帮忙吗？

why I only can see one spark streaming kafkaReceiver

Answer 1

numStreams = 5
kafkaStreams = [KafkaUtils.createStream(...) for _ in range (numStreams)]
unifiedStream = streamingContext.union(*kafkaStreams)
unifiedStream.pprint()

您可以从this教程获得所有其他信息。部分 - 数据接收中的并行度。

与多个接收器进行pyspark并行处理

1 个答案: