我使用以下命令将带有pySpark的DataFrame写入HDFS:
df.repartition(col("year"))\
.write.option("maxRecordsPerFile", 1000000)\
.parquet('/path/tablename', mode='overwrite', partitionBy=["year"], compression='snappy')
查看HDFS时,我可以看到文件正确放置在此处。无论如何,当我尝试使用HIVE或Impala读取表格时,找不到该表格。
这是怎么回事,我错过了什么吗?
有趣的是,df.write.format('parquet').saveAsTable("tablename")
正常工作。