将数据帧保存为外部配置单元表

时间:2016-05-31 10:45:16

标签: apache-spark hive apache-spark-sql spark-dataframe

我曾使用一种方法将数据帧保存为使用镶木地板文件格式的外部表格,但是还有其他方法可以将数据帧直接保存为配置单元中的外部表格,就像我们为托管表格保存了asAsable

4 个答案:

答案 0 :(得分:3)

你可以这样做

df.write.format(“ORC”)。options(Map(“path” - >“yourpath”))saveAsTable“anubhav”

答案 1 :(得分:2)

PySpark 中,可以如下创建外部表:

df.write.option('path','<External Table Path>').saveAsTable('<Table Name>')

答案 2 :(得分:0)

对于外部表格,请勿使用...。而是将数据保存在saveAsTable指定的外部表的位置。然后添加分区,以便使用hive元数据进行注册。这将允许您稍后通过分区进行查询。

path

答案 3 :(得分:-1)

您还可以使用手动创建表格保存数据框

dataframe.registerTempTable("temp_table");
hiveSqlContext.sql("create external table 
   table_name if not exist as select * from temp_table");

下面提到的链接对创建表https://docs.databricks.com/spark/latest/spark-sql/language-manual/create-table.html

有一个很好的解释