想要将spark数据帧写入现有的镶木地板蜂巢表。我可以使用INSERT INTO Customer(Name, OrderId)
SELECT TOP 1000 @Name, o.Orderid
FROM Sales s
LEFT JOIN [order] o
ON s.salesid = o.Orderid
WHERE o.Orderid IS NOT NULL;
来完成它,但如果我通过文件系统检查,我可以看到火花文件以.c000扩展名着陆。
那些文件是什么意思?以及如何将数据框写入镶木地板蜂巢表。
答案 0 :(得分:0)
您可以在hive表引用的位置将数据帧保存为parquest,之后您可以在hive中更改表
你可以这样做
df.write.mode("append").parquet("HDFS directory path")
答案 1 :(得分:0)
我们可以使用df.write.partitionBy("mypartitioncols").format("parquet").mode(SaveMode.Append).saveAsTable("hivetable")
在较早版本的省电模式下,不存在附加。