hadoop - 什么是Spark（或Hadoop）将数据框架保存为镶木地板文件的规则？

群集中有一个镶木地板文件，其中包含一个数据框，其大小约为1.65Gb。群集的块大小为128Mb。

第一次保存这个文件时，它被分成117个不同大小的部分，没有大于20.6Mb。

第二次保存（read.parquet＆gt; write.parquet）它有19个零件，大于102.2Mb，但大多数是在这个尺寸的大小除了最后4个，它们分别是90,50,50和30 Mb分别。

第三次保存，从第二版开始，它有18个部分，最多约102Mb，除了最后3个分别是95,118和32Mb。

DF包含2500万条记录，共44列。每天都会生成类似的数据，但这些数据保存在3个相等的500Mb或类似的部分中。群集有3个数据节点。每次执行保存的spark实例都是通过Zeppelin笔记本使用的，它有10个执行器和一个驱动程序。