从镶木地板文件顶部的pyspark代码创建一个表

时间:2017-04-11 13:42:09

标签: pyspark parquet

我使用parquet代码中的peopleDF.write.parquet("people.parquet")将数据写入PySpark文件格式。现在我要做的是从同一个代码我想在这个table文件的顶部创建一个parquet然后我可以查询。我怎么能这样做?

2 个答案:

答案 0 :(得分:0)

您可以使用saveAsTable method

peopleDF.write.saveAsTable('people_table')

答案 1 :(得分:0)

您必须在hive中创建外部表格,如下所示:

CREATE EXTERNAL TABLE my_table (
    col1 INT,
    col2 INT
) STORED AS PARQUET
LOCATION '/path/to/';

其中/path/to/是HDFS中文件的绝对路径。

如果您想使用分区,可以添加PARTITION BY (col3 INT)。在这种情况下,要查看您必须执行的数据repair