我试图用Spark实现并行处理。我想在spark中创建多个接收器(不仅仅是线程)来接收来自kafka的流数据。我找到了一个链接,指示如何使用scala(请参阅下面的链接)。但我无法找到类似的pyspark代码。有人可以帮忙吗?
答案 0 :(得分:-1)
numStreams = 5
kafkaStreams = [KafkaUtils.createStream(...) for _ in range (numStreams)]
unifiedStream = streamingContext.union(*kafkaStreams)
unifiedStream.pprint()
您可以从this教程获得所有其他信息。部分 - 数据接收中的并行度。