目前我的Spark Structured Streaming是这样的(仅显示Sink部分):
//Output aggregation query to Parquet in append mode
aggregationQuery.writeStream
.format("parquet")
.trigger(Trigger.ProcessingTime("15 seconds"))
.partitionBy("date", "hour")
.option("path", "hdfs://<myip>:8020/user/myuser/spark/proyecto3")
.option("checkpointLocation", "hdfs://<myip>:8020/user/myuser/spark/checkpointfolder3")
.outputMode("append")
.start()
上面的代码在'path'定义的目录中生成.parquet文件。
我在外部定义了一个从该路径读取的Impala表,但我需要在每次附加镶木地板文件后更新或刷新表。
如何实现这一目标?
答案 0 :(得分:0)
文件接收器之后,您需要更新表的分区。
Date,TotalPeople
3/21/2020 12:00:00 AM,4
3/22/2020 12:00:00 AM,3
3/23/2020 12:00:00 AM,5
etc