Pyspark .partitionBy()。parquet()不保存文件

时间:2018-11-17 18:24:18

标签: azure apache-spark pyspark apache-spark-sql databricks

我目前在Azure Databricks工作。我有一个合并的spark数据框架,其中包含“年”,“月”和“天”等列。

我需要做的是基于这些列对其进行分区,然后将它们全部保存在我的azure数据湖存储(以木地板格式)中。因此,对于每个分区,路径应类似于“ adl / Data / UserData / year / month / day /”

据我了解,应该很简单:

 new_user_dataframe.write.partitionBy("year", "month", "day").parquet("adl/Data/UserData")

spark作业正在我的笔记本中运行,但父文件夹仍然为空。尽管没有partitionBy子句,它也可以正常工作。所以我可以写new_user_dataframe.write.parquet(full path for some specific day),但这不是我所需要的。

我正在考虑做类似new_user_dataframe.write.partitionBy("year", "month", "day").parquet("adl/Data/UserData/y=" + year + "/m=" + month + "/d=" + day)的事情。但是,我不知道如何访问这些变量以将它们传递到路径中。

谢谢您的建议

0 个答案:

没有答案