我想知道如何正确处理来自三角洲湖泊表和水印的全状态结构流。我可以:
spark.readStream.format("delta").table("events").toDS.withWatermark("dt", "60 seconds")
在处理过程中是否按dt
对数据进行排序?因为如果要插入此表的批处理大于60s,则流处理可能会在处理整个数据之前删除状态。
以及如何从一开始就进行重新处理。我可以删除检查点,并从头开始,但出现相同的问题:它是否对数据排序?尤其是当数据已经压缩时,这很重要,我的意思是将小文件压缩为较大的文件。
谢谢