标签: python apache-spark pyspark spark-streaming spark-structured-streaming
我正在研究Spark结构化流。我的输入流数据如下所示:
id | col0 | col1 | ...
有时,具有相同id的行会在大约5分钟的时间内到达。我只想保留第一个,然后删除重复出现的重复的。我还想每隔一分钟写一次输出,只要有新id的新行到达。 Spark Streaming中有dropDuplicate和withWatermark函数,但是我认为如果我使用水印,Spark会等到水印过期,因此不适合此用例。有什么好的方法可以做到这一点吗?
id
dropDuplicate
withWatermark