我目前在Azure Databricks工作。我有一个合并的spark数据框架,其中包含“年”,“月”和“天”等列。
我需要做的是基于这些列对其进行分区,然后将它们全部保存在我的azure数据湖存储(以木地板格式)中。因此,对于每个分区,路径应类似于“ adl / Data / UserData / year / month / day /”
据我了解,应该很简单:
new_user_dataframe.write.partitionBy("year", "month", "day").parquet("adl/Data/UserData")
spark作业正在我的笔记本中运行,但父文件夹仍然为空。尽管没有partitionBy
子句,它也可以正常工作。所以我可以写new_user_dataframe.write.parquet(full path for some specific day)
,但这不是我所需要的。
我正在考虑做类似new_user_dataframe.write.partitionBy("year", "month", "day").parquet("adl/Data/UserData/y=" + year + "/m=" + month + "/d=" + day)
的事情。但是,我不知道如何访问这些变量以将它们传递到路径中。
谢谢您的建议