为什么apache spark保存功能,文件夹包含多个子文件?

时间:2018-05-09 02:32:10

标签: apache-spark spark-dataframe

当保存火花数据帧时,火花保存到文件夹内的多个文件而不是一个文件。

df.write.format("json") \
                .option("header", "true") \
                .save('data.json', mode='append')

运行此代码时, data.json 将是文件夹名称而不是文件名。

我想知道这有什么好处?

1 个答案:

答案 0 :(得分:0)

当您编写数据框或rdd时,spark使用

下的HadoopAPI

包含结果的实际数据位于part-文件中,这些文件在数据帧上创建为相同数量的分区。如果您有npartition个号,则会创建n个零件文件。

多个part文件的主要优点是,如果您有多个工作人员可以并行访问和写入该文件。

_SUCCESS等其他文件表示已成功完成,.crc用于ckeck。

希望这会对你有所帮助。