什么是实木复合地板摘要文件?

时间:2018-11-05 08:32:04

标签: apache-spark apache-spark-sql parquet

在Apache的官方网站上,this is the official explanation of this parameter

  

为true时,Parquet数据源合并从所有数据文件收集的架构,否则从摘要文件或随机数据文件(如果没有摘要文件可用)中选取该架构。

实际上,我的问题是,摘要文件是什么?

3 个答案:

答案 0 :(得分:1)

Apache Parquet使用元数据来存储从文件加载数据所需的所有信息,例如列元数据,字典行组等。

该格式旨在使此元数据嵌入文件本身或存储在单独的文件中。这就是summary文件。

答案 1 :(得分:0)

Parquet摘要文件包含目录中实际Parquet数据文件的页脚集合。当不从每个单独的Parquet文件中读取页脚时,可用于跳过RowGroup,如果您有很多文件和/或在Blob存储中,则这可能会很昂贵。

https://github.com/apache/parquet-mr/blob/65b95fb72be8f5a8a193a6f7bc4560fdcd742fc7/parquet-hadoop/src/main/java/org/apache/parquet/hadoop/ParquetFileReader.java#L407

答案 2 :(得分:-1)

Parquet存储格式是面向列的文件格式,这意味着所有行中特定列的数据将彼此相邻存储,这带来了两个主要好处-更好的压缩率和更高的查询性能。