apache-spark - 使用Spark结构化流在附加模式下为带水印的聚合查询提供空输出

我正在使用spark 4.4结构化流，并尝试从磁盘读取数据并以“追加”模式显示输出，但是没有任何输出。有多个csv文件，每个文件包含一个日期的数据。我只得到空批次。

country_date = data.dropDuplicates(["ObservationDate", "Country"]) \
.withWatermark("ObservationDate", "1 day") \
.groupby("ObservationDate", "Country").agg(
{'Confirmed': 'sum', 'Deaths': 'sum', 'Recovered': 'sum'}).withColumnRenamed("sum(Recovered)", "Total Recovered").withColumnRenamed("sum(Deaths)", "Total Deaths")\
.withColumnRenamed("sum(Confirmed)", "Total Confirmed")

country_date_query = country_date.writeStream.format(source="console") \
.option("numRows", "20") \
.option("truncate", "false") \
.outputMode("append").start()

使用Spark结构化流在附加模式下为带水印的聚合查询提供空输出

0 个答案: