读取由Dataframewriter Pyspark

时间:2019-02-16 13:40:32

标签: python csv apache-spark dataframe pyspark

我有使用以下代码写入CSV的数据框:

df.write.format("csv").save(base_path+"avg.csv")

当我在客户端模式下运行spark时,以上代码片段创建了一个名为avg.csv的文件夹,并且该文件夹包含一些带有part- *的文件 .csv在我的工作节点或嵌套文件夹上,然后输入part-*。csv。

现在,当我尝试读取avg.csv时,我得到的路径不存在。

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv")

有人可以告诉我我在哪里做错了吗?

1 个答案:

答案 0 :(得分:1)

Part-00**文件是分布式计算文件(例如MR,spark)的输出。因此,当您尝试存储时,它将始终是由零件文件创建的文件夹,因为这是某些分布式存储的输出,请牢记。

因此,请尝试使用:

df.read.format("com.databricks.spark.csv").load(base_path+"avg.csv/*")