将没有“ ColumnName =“

时间:2019-02-14 18:39:26

标签: azure-data-lake azure-databricks

是否可以在不返回路径“ ColumnName = Value”的情况下使用partitionBy或其他功能?

我在azure databricks中使用python笔记本将csv文件发送到Azure Data Lake Store。使用的命令如下:

%scala
val filepath= "dbfs:/mnt/Test"

Sample
  .coalesce(1)       
  .write             
  .mode("overwrite")
  .partitionBy("Year","Month","Day")
  .option("header", "true")
  .option("delimiter",";")
  .csv(filepath)

期望具有以下路径: / Test / 2018/12/11

代替: / Test / Year = 2018 / Month = 12 / Day = 11

1 个答案:

答案 0 :(得分:0)

这是预期的行为。 Spark将目录路径用于具有列名的分区。

如果需要特定目录,则应使用下游过程重命名目录,或者可以过滤df并将其一一保存在特定目录中。