如何直接将流结构化流写入Hive?

时间:2018-03-24 18:31:28

标签: apache-spark hive spark-structured-streaming

我想实现这样的目标:

df.writeStream
.saveAsTable("dbname.tablename")
.format("parquet")
.option("path", "/user/hive/warehouse/abc/")
.option("checkpointLocation", "/checkpoint_path") 
.outputMode("append")
.start() 

我愿意接受建议。我知道Kafka Connect可能是其中一个选项,但如何使用Spark实现这一目标。可能的解决方法可能是我正在寻找的。 在此先感谢!!

1 个答案:

答案 0 :(得分:2)

Spark结构化流式传输不支持直接将流式查询的结果写入Hive表。您必须写入路径。

对于2.4,他们说尝试foreachBatch,但我还没有尝试过。