我们使用Spark在HDFS上生成镶木地板文件。
Spark生成4个文件,包含数据的镶木地板和3个元数据文件。问题是,3个元数据文件需要1个块,这里是128M,因为我们运行这样的许多任务,这可能会占用大量空间。
是否需要文件?或者这是一个很好的处理方式?
答案 0 :(得分:3)
镶木地板输出文件夹中的元数据文件是可选的,当镶嵌文件中嵌入了元数据时,镶嵌文件中不需要spark来读取它。
另一方面,thrift
需要读取这些文件。
在Spark 2.0中,默认编写Parquet摘要文件。 [参考。 SPARK-15719。]