在Apache的官方网站上,this is the official explanation of this parameter:
为true时,Parquet数据源合并从所有数据文件收集的架构,否则从摘要文件或随机数据文件(如果没有摘要文件可用)中选取该架构。
实际上,我的问题是,摘要文件是什么?
答案 0 :(得分:1)
Apache Parquet使用元数据来存储从文件加载数据所需的所有信息,例如列元数据,字典行组等。
该格式旨在使此元数据嵌入文件本身或存储在单独的文件中。这就是summary
文件。
答案 1 :(得分:0)
Parquet摘要文件包含目录中实际Parquet数据文件的页脚集合。当不从每个单独的Parquet文件中读取页脚时,可用于跳过RowGroup,如果您有很多文件和/或在Blob存储中,则这可能会很昂贵。
答案 2 :(得分:-1)
Parquet存储格式是面向列的文件格式,这意味着所有行中特定列的数据将彼此相邻存储,这带来了两个主要好处-更好的压缩率和更高的查询性能。