Question

我目前在Azure Databricks工作。我有一个合并的spark数据框架，其中包含“年”，“月”和“天”等列。

我需要做的是基于这些列对其进行分区，然后将它们全部保存在我的azure数据湖存储（以木地板格式）中。因此，对于每个分区，路径应类似于“ adl / Data / UserData / year / month / day /”

据我了解，应该很简单：

 new_user_dataframe.write.partitionBy("year", "month", "day").parquet("adl/Data/UserData")

spark作业正在我的笔记本中运行，但父文件夹仍然为空。尽管没有partitionBy子句，它也可以正常工作。所以我可以写new_user_dataframe.write.parquet(full path for some specific day)，但这不是我所需要的。

我正在考虑做类似new_user_dataframe.write.partitionBy("year", "month", "day").parquet("adl/Data/UserData/y=" + year + "/m=" + month + "/d=" + day)的事情。但是，我不知道如何访问这些变量以将它们传递到路径中。

谢谢您的建议

Pyspark .partitionBy（）。parquet（）不保存文件

0 个答案: