在HDFS上有用的Parquet元数据文件?

时间:2017-05-29 07:29:09

标签: apache-spark hdfs parquet

我们使用Spark在HDFS上生成镶木地板文件。

Spark生成4个文件,包含数据的镶木地板和3个元数据文件。问题是,3个元数据文件需要1个块,这里是128M,因为我们运行这样的许多任务,这可能会占用大量空间。

是否需要文件?或者这是一个很好的处理方式?

1 个答案:

答案 0 :(得分:3)

镶木地板输出文件夹中的元数据文件是可选的,当镶嵌文件中嵌入了元数据时,镶嵌文件中不需要spark来读取它。

另一方面,thrift需要读取这些文件。

在Spark 2.0中,默认编写Parquet摘要文件。 [参考。 SPARK-15719。]