如何使用Python在Spark流中加入三个DStream

时间:2019-05-22 23:50:16

标签: python apache-spark pyspark apache-kafka spark-streaming

我有三个kafka生产者,它们以5-10秒之间的随机间隔发送有关同一主题的数据流。有一个Spark使用者(基于python)正在使用数据。

要求是首先将使用者中的输入流分成3个独立的流,然后在列的基础上将它们加入。生产者使用Python开发。

在Python中,我已经成功地将传入的数据流划分为3个独立的流。但是,我面临一个问题,即基于一个键将所有3个重新连接在一起,这是传入数据流中的第一个值。

当我加入2个流时,该加入按预期方式工作。 但是,当我加入所有3个流时,我没有得到任何输出。

P1.LeftOuterJoin(P2) # works
P1.LeftOuterJoin(P3) # works
P2.Join(P3) # works

P1.LeftOuterJoin(P2.Join(P3)) # no output coming up

0 个答案:

没有答案