pyspark将输出文件创建为文件夹

时间:2018-03-11 04:37:50

标签: python apache-spark pyspark

Pyspark创建文件夹而不是文件。对于以下命令,它会在目录中创建一个名为proto.parquet的空文件夹。

df.write.parquet("output/proto.parquet")

尝试使用csv和其他格式,但仍然相同。

1 个答案:

答案 0 :(得分:0)

Spark创建文件夹而不是文件的事实是预期的行为。原因是Spark是一个分布式系统,因此数据在分区中处理,每个工作节点将其数据写入零件文件。

所以你看到的是应该如何运作。它与mapreduce的工作方式相同。