什么是Spark(或Hadoop)将数据框架保存为镶木地板文件的规则?

时间:2017-01-20 14:39:54

标签: hadoop apache-spark parquet

群集中有一个镶木地板文件,其中包含一个数据框,其大小约为1.65Gb。群集的块大小为128Mb。

第一次保存这个文件时,它被分成117个不同大小的部分,没有大于20.6Mb。

第二次保存(read.parquet> write.parquet)它有19个零件,大于102.2Mb,但大多数是在这个尺寸的大小除了最后4个,它们分别是90,50,50和30 Mb分别。

第三次保存,从第二版开始,它有18个部分,最多约102Mb,除了最后3个分别是95,118和32Mb。

DF包含2500万条记录,共44列。每天都会生成类似的数据,但这些数据保存在3个相等的500Mb或类似的部分中。 群集有3个数据节点。每次执行保存的spark实例都是通过Zeppelin笔记本使用的,它有10个执行器和一个驱动程序。

0 个答案:

没有答案