我想实现这样的目标:
df.writeStream
.saveAsTable("dbname.tablename")
.format("parquet")
.option("path", "/user/hive/warehouse/abc/")
.option("checkpointLocation", "/checkpoint_path")
.outputMode("append")
.start()
我愿意接受建议。我知道Kafka Connect可能是其中一个选项,但如何使用Spark实现这一目标。可能的解决方法可能是我正在寻找的。 在此先感谢!!
答案 0 :(得分:2)
Spark结构化流式传输不不支持直接将流式查询的结果写入Hive表。您必须写入路径。
对于2.4,他们说尝试foreachBatch,但我还没有尝试过。