将火花数据帧写入现有的镶木地板蜂巢表

时间:2018-06-11 17:23:21

标签: scala apache-spark hadoop apache-spark-sql hiveql

想要将spark数据帧写入现有的镶木地板蜂巢表。我可以使用INSERT INTO Customer(Name, OrderId) SELECT TOP 1000 @Name, o.Orderid FROM Sales s LEFT JOIN [order] o ON s.salesid = o.Orderid WHERE o.Orderid IS NOT NULL; 来完成它,但如果我通过文件系统检查,我可以看到火花文件以.c000扩展名着陆。 那些文件是什么意思?以及如何将数据框写入镶木地板蜂巢表。

2 个答案:

答案 0 :(得分:0)

您可以在hive表引用的位置将数据帧保存为parquest,之后您可以在hive中更改表

你可以这样做

df.write.mode("append").parquet("HDFS directory path")

答案 1 :(得分:0)

我们可以使用df.write.partitionBy("mypartitioncols").format("parquet").mode(SaveMode.Append).saveAsTable("hivetable") 在较早版本的省电模式下,不存在附加。