我使用parquet
代码中的peopleDF.write.parquet("people.parquet")
将数据写入PySpark
文件格式。现在我要做的是从同一个代码我想在这个table
文件的顶部创建一个parquet
然后我可以查询。我怎么能这样做?
答案 0 :(得分:0)
您可以使用saveAsTable
method:
peopleDF.write.saveAsTable('people_table')
答案 1 :(得分:0)
您必须在hive
中创建外部表格,如下所示:
CREATE EXTERNAL TABLE my_table (
col1 INT,
col2 INT
) STORED AS PARQUET
LOCATION '/path/to/';
其中/path/to/
是HDFS中文件的绝对路径。
如果您想使用分区,可以添加PARTITION BY (col3 INT)
。在这种情况下,要查看您必须执行的数据repair
。