Spark Streaming删除重复项,并仅保留每个键的第一条记录

时间:2020-03-01 21:25:51

标签: python apache-spark pyspark spark-streaming spark-structured-streaming

我正在研究Spark结构化流。我的输入流数据如下所示:

id | col0 | col1 | ...

有时,具有相同id的行会在大约5分钟的时间内到达。我只想保留第一个,然后删除重复出现的重复的。我还想每隔一分钟写一次输出,只要有新id的新行到达。 Spark Streaming中有dropDuplicatewithWatermark函数,但是我认为如果我使用水印,Spark会等到水印过期,因此不适合此用例。有什么好的方法可以做到这一点吗?

0 个答案:

没有答案