Question

关于如何将Dataframe作为CSV保存到Databricks平台上的磁盘上，我发现了多个结果。 Spark Dataframe save as CSV How to save a spark DataFrame as csv on disk?

但是，每当我尝试将答案应用于我的情况时，它都会失败。因此，我在这里提交有关此问题的问题。

我使用以下代码生成以下数据框：

df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

display(df)

我现在想将上述数据框保存到磁盘。

我尝试了以下方法：

filepath = "/FileStore/tables"
df.coalesce(1).write.option("header","true").option("sep",",").mode("overwrite").csv("filepath")

但是出现以下错误：

有人可以让我知道我要去哪里了吗

Answer 1

根据原始海报的评论共享答案：

“我设法弄清楚为什么会出现上述错误-这是因为我试图写Databricks社区版。当我向Databricks付费平台申请代码时，一切工作正常。”

有关评论的答案：

有人可以让我知道如何将文件重命名为其他名称吗？有意义吗？

不可能直接在Spark的保存中更改文件名。

Spark使用Hadoop文件格式，该文件需要对数据进行分区-这就是为什么您拥有部分文件的原因。您可以像在SO线程中一样，在处理后轻松更改文件名。

您可以引用相似的SO线程，该线程解决了相似的问题。

希望这会有所帮助。

尝试将Spark Dataframe在CSV上以CSV格式保存到磁盘

1 个答案: