使用Spark结构化流在附加模式下为带水印的聚合查询提供空输出

时间:2020-04-02 16:02:47

标签: apache-spark pyspark spark-structured-streaming

我正在使用spark 4.4结构化流,并尝试从磁盘读取数据并以“追加”模式显示输出,但是没有任何输出。 有多个csv文件,每个文件包含一个日期的数据。 我只得到空批次。

country_date = data.dropDuplicates(["ObservationDate", "Country"]) \
.withWatermark("ObservationDate", "1 day") \
.groupby("ObservationDate", "Country").agg(
{'Confirmed': 'sum', 'Deaths': 'sum', 'Recovered': 'sum'}).withColumnRenamed("sum(Recovered)", "Total Recovered").withColumnRenamed("sum(Deaths)", "Total Deaths")\
.withColumnRenamed("sum(Confirmed)", "Total Confirmed")

country_date_query = country_date.writeStream.format(source="console") \
.option("numRows", "20") \
.option("truncate", "false") \
.outputMode("append").start()

0 个答案:

没有答案