应用错误收集

在HDFS上有用的Parquet元数据文件？

时间：2017-05-29 07:29:09

标签： apache-spark hdfs parquet

我们使用Spark在HDFS上生成镶木地板文件。

Spark生成4个文件，包含数据的镶木地板和3个元数据文件。问题是，3个元数据文件需要1个块，这里是128M，因为我们运行这样的许多任务，这可能会占用大量空间。

是否需要文件？或者这是一个很好的处理方式？

1 个答案:

答案 0 :(得分：3)

镶木地板输出文件夹中的元数据文件是可选的，当镶嵌文件中嵌入了元数据时，镶嵌文件中不需要spark来读取它。

另一方面，thrift需要读取这些文件。

在Spark 2.0中，默认编写Parquet摘要文件。 [参考。 SPARK-15719。]