Question

想要将spark数据帧写入现有的镶木地板蜂巢表。我可以使用INSERT INTO Customer(Name, OrderId) SELECT TOP 1000 @Name, o.Orderid FROM Sales s LEFT JOIN [order] o ON s.salesid = o.Orderid WHERE o.Orderid IS NOT NULL;来完成它，但如果我通过文件系统检查，我可以看到火花文件以.c000扩展名着陆。那些文件是什么意思？以及如何将数据框写入镶木地板蜂巢表。

Answer 1

您可以在hive表引用的位置将数据帧保存为parquest，之后您可以在hive中更改表

你可以这样做

df.write.mode("append").parquet("HDFS directory path")

Answer 2

我们可以使用df.write.partitionBy("mypartitioncols").format("parquet").mode(SaveMode.Append).saveAsTable("hivetable") 在较早版本的省电模式下，不存在附加。

将火花数据帧写入现有的镶木地板蜂巢表

2 个答案: