应用错误收集

时间：2017-04-10 13:01:07

标签： apache-spark gzip parquet

在这个主题上搜索和阅读互联网上的答案时，我收到了令人困惑的信息。有谁可以分享他们的经验？我知道gzipped csv不是这样的事实，但Parquet的文件内部结构可能是Parquet与csv完全不同的情况吗？

答案 0 :(得分：16)

GZIP压缩的Parquet文件实际上是可拆分的。这是因为Parquet文件的内部布局。它们总是可拆分的，与使用的压缩算法无关。

这个事实主要是由于Parquet文件的设计分为以下几部分：