在这个主题上搜索和阅读互联网上的答案时,我收到了令人困惑的信息。有谁可以分享他们的经验?我知道gzipped csv不是这样的事实,但Parquet的文件内部结构可能是Parquet与csv完全不同的情况吗?
答案 0 :(得分:16)
GZIP压缩的Parquet文件实际上是可拆分的。这是因为Parquet文件的内部布局。它们总是可拆分的,与使用的压缩算法无关。
这个事实主要是由于Parquet文件的设计分为以下几部分:
您可以在此处找到更详细的说明:https://github.com/apache/parquet-format#file-format