尝试将Spark Dataframe在CSV上以CSV格式保存到磁盘

时间:2019-10-24 12:55:24

标签: pyspark databricks

关于如何将Dataframe作为CSV保存到Databricks平台上的磁盘上,我发现了多个结果。 Spark Dataframe save as CSV How to save a spark DataFrame as csv on disk?

但是,每当我尝试将答案应用于我的情况时,它都会失败。因此,我在这里提交有关此问题的问题。

我使用以下代码生成以下数据框:

df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

display(df)

我现在想将上述数据框保存到磁盘。

我尝试了以下方法:

filepath = "/FileStore/tables"
df.coalesce(1).write.option("header","true").option("sep",",").mode("overwrite").csv("filepath")

但是出现以下错误: enter image description here

有人可以让我知道我要去哪里了吗

1 个答案:

答案 0 :(得分:0)

根据原始海报的评论共享答案:

“我设法弄清楚为什么会出现上述错误-这是因为我试图写Databricks社区版。当我向Databricks付费平台申请代码时,一切工作正常。”

有关评论的答案:

  

有人可以让我知道如何将文件重命名为其他名称吗?   有意义吗?

不可能直接在Spark的保存中更改文件名。

Spark使用Hadoop文件格式,该文件需要对数据进行分区-这就是为什么您拥有部分文件的原因。您可以像在SO线程中一样,在处理后轻松更改文件名。

您可以引用相似的SO线程,该线程解决了相似的问题。

希望这会有所帮助。