标签: python apache-spark pyspark
Pyspark创建文件夹而不是文件。对于以下命令,它会在目录中创建一个名为proto.parquet的空文件夹。
df.write.parquet("output/proto.parquet")
尝试使用csv和其他格式,但仍然相同。
答案 0 :(得分:0)
Spark创建文件夹而不是文件的事实是预期的行为。原因是Spark是一个分布式系统,因此数据在分区中处理,每个工作节点将其数据写入零件文件。
所以你看到的是应该如何运作。它与mapreduce的工作方式相同。