结构流如何处理带有水印的三角洲湖泊

时间:2020-04-01 08:02:52

标签: apache-spark spark-structured-streaming delta-lake

我想知道如何正确处理来自三角洲湖泊表和水印的全状态结构流。我可以: spark.readStream.format("delta").table("events").toDS.withWatermark("dt", "60 seconds")

在处理过程中是否按dt对数据进行排序?因为如果要插入此表的批处理大于60s,则流处理可能会在处理整个数据之前删除状态。 以及如何从一开始就进行重新处理。我可以删除检查点,并从头开始,但出现相同的问题:它是否对数据排序?尤其是当数据已经压缩时,这很重要,我的意思是将小文件压缩为较大的文件。 谢谢

0 个答案:

没有答案