Question

当保存火花数据帧时，火花保存到文件夹内的多个文件而不是一个文件。

df.write.format("json") \
                .option("header", "true") \
                .save('data.json', mode='append')

运行此代码时， data.json 将是文件夹名称而不是文件名。

我想知道这有什么好处？

Answer 1

当您编写数据框或rdd时，spark使用

下的HadoopAPI

包含结果的实际数据位于part-文件中，这些文件在数据帧上创建为相同数量的分区。如果您有n个partition个号，则会创建n个零件文件。

多个part文件的主要优点是，如果您有多个工作人员可以并行访问和写入该文件。

_SUCCESS等其他文件表示已成功完成，.crc用于ckeck。

希望这会对你有所帮助。