我有三个kafka生产者,它们以5-10秒之间的随机间隔发送有关同一主题的数据流。有一个Spark使用者(基于python)正在使用数据。
要求是首先将使用者中的输入流分成3个独立的流,然后在列的基础上将它们加入。生产者使用Python开发。
在Python中,我已经成功地将传入的数据流划分为3个独立的流。但是,我面临一个问题,即基于一个键将所有3个重新连接在一起,这是传入数据流中的第一个值。
当我加入2个流时,该加入按预期方式工作。 但是,当我加入所有3个流时,我没有得到任何输出。
P1.LeftOuterJoin(P2) # works
P1.LeftOuterJoin(P3) # works
P2.Join(P3) # works
P1.LeftOuterJoin(P2.Join(P3)) # no output coming up