我正在使用spark 4.4结构化流,并尝试从磁盘读取数据并以“追加”模式显示输出,但是没有任何输出。 有多个csv文件,每个文件包含一个日期的数据。 我只得到空批次。
country_date = data.dropDuplicates(["ObservationDate", "Country"]) \
.withWatermark("ObservationDate", "1 day") \
.groupby("ObservationDate", "Country").agg(
{'Confirmed': 'sum', 'Deaths': 'sum', 'Recovered': 'sum'}).withColumnRenamed("sum(Recovered)", "Total Recovered").withColumnRenamed("sum(Deaths)", "Total Deaths")\
.withColumnRenamed("sum(Confirmed)", "Total Confirmed")
country_date_query = country_date.writeStream.format(source="console") \
.option("numRows", "20") \
.option("truncate", "false") \
.outputMode("append").start()