Question

我正在Databricks中执行以下代码来转换将dataframe插入csv dataframe.csv并存储在dbfs路径中。

df.coalesce(1)\
 .write\
 .format("com.databricks.spark.csv")\
 .option("header", "true")\
 .save("dataframe.csv")

正在 dbfs：/dataframe.csv 中创建此文件。我需要将此文件分配给文件名，以便可以将该文件附加到邮件中。我正在使用：

filename = pandas.read_csv("dataframe.csv")

但这给我抛出错误： IOError: File dataframe.csv does not exist

有人可以帮我吗？

Answer 1

您需要在文件名前加上/dbfs文件夹，如下所示：

filename = "/dbfs/somefile.csv"
frame = pd.read_csv(filename)

在这里，您将使用Databricks文件系统的local file API，这是与该分布式文件系统进行交互的几种方式之一。