如何从Spark Structured Streaming刷新Hive / Impala表?

时间:2018-05-18 13:59:13

标签: apache-spark spark-streaming impala spark-structured-streaming

目前我的Spark Structured Streaming是这样的(仅显示Sink部分):

//Output aggregation query to Parquet in append mode
aggregationQuery.writeStream
  .format("parquet")
  .trigger(Trigger.ProcessingTime("15 seconds"))
  .partitionBy("date", "hour")
  .option("path", "hdfs://<myip>:8020/user/myuser/spark/proyecto3")
  .option("checkpointLocation", "hdfs://<myip>:8020/user/myuser/spark/checkpointfolder3")
  .outputMode("append")
  .start()

上面的代码在'path'定义的目录中生成.parquet文件。

我在外部定义了一个从该路径读取的Impala表,但我需要在每次附加镶木地板文件后更新或刷新表。

如何实现这一目标?

1 个答案:

答案 0 :(得分:0)

文件接收器之后,您需要更新表的分区。

Date,TotalPeople
3/21/2020 12:00:00 AM,4
3/22/2020 12:00:00 AM,3
3/23/2020 12:00:00 AM,5
etc