Question

目前我的Spark Structured Streaming是这样的（仅显示Sink部分）：

//Output aggregation query to Parquet in append mode
aggregationQuery.writeStream
  .format("parquet")
  .trigger(Trigger.ProcessingTime("15 seconds"))
  .partitionBy("date", "hour")
  .option("path", "hdfs://<myip>:8020/user/myuser/spark/proyecto3")
  .option("checkpointLocation", "hdfs://<myip>:8020/user/myuser/spark/checkpointfolder3")
  .outputMode("append")
  .start()

上面的代码在'path'定义的目录中生成.parquet文件。

我在外部定义了一个从该路径读取的Impala表，但我需要在每次附加镶木地板文件后更新或刷新表。

如何实现这一目标？

Answer 1

文件接收器之后，您需要更新表的分区。

Date,TotalPeople
3/21/2020 12:00:00 AM,4
3/22/2020 12:00:00 AM,3
3/23/2020 12:00:00 AM,5
etc

如何从Spark Structured Streaming刷新Hive / Impala表？

1 个答案: