有什么办法可以将dbfs(databricks)路径中的csv文件分配给pyspark中的变量?

时间:2019-11-22 10:59:29

标签: python databricks

我正在Databricks中执行以下代码来转换 将dataframe插入csv dataframe.csv并存储在dbfs路径中。

df.coalesce(1)\
 .write\
 .format("com.databricks.spark.csv")\
 .option("header", "true")\
 .save("dataframe.csv")

正在 dbfs:/dataframe.csv 中创建此文件。 我需要将此文件分配给文件名,以便可以将该文件附加到邮件中。我正在使用:

filename = pandas.read_csv("dataframe.csv")

但这给我抛出错误: IOError: File dataframe.csv does not exist

有人可以帮我吗?

1 个答案:

答案 0 :(得分:0)

您需要在文件名前加上/dbfs文件夹,如下所示:

filename = "/dbfs/somefile.csv"
frame = pd.read_csv(filename)

在这里,您将使用Databricks文件系统的local file API,这是与该分布式文件系统进行交互的几种方式之一。