当保存火花数据帧时,火花保存到文件夹内的多个文件而不是一个文件。
df.write.format("json") \
.option("header", "true") \
.save('data.json', mode='append')
运行此代码时, data.json 将是文件夹名称而不是文件名。
我想知道这有什么好处?
答案 0 :(得分:0)
当您编写数据框或rdd时,spark使用
下的HadoopAPI包含结果的实际数据位于part-
文件中,这些文件在数据帧上创建为相同数量的分区。如果您有n
个partition
个号,则会创建n
个零件文件。
多个part
文件的主要优点是,如果您有多个工作人员可以并行访问和写入该文件。
_SUCCESS
等其他文件表示已成功完成,.crc
用于ckeck。
希望这会对你有所帮助。