标签: apache-spark apache-spark-sql azure-databricks
我有按月划分的庞大数据集。我可以使用spark.write.parquet方法编写镶木地板文件。尝试使用spark本身进行读取时,它可以正常工作。 实木复合地板文件没有分区列,并且由它们所在的文件夹表示。当尝试使用外部程序(例如polybase)读取镶木地板文件时,我们无法确定该文件所属的月份。
有什么方法可以强制spark在镶木地板文件中包括分区列?还有其他选择吗?