标签: apache-spark parquet
在Spark 2.2中,谓词下推是否适用于压缩的Parquet文件(例如GZIP,Snappy)?
答案 0 :(得分:2)
是的,谓词下推适用于所有Parquet文件。这里的重要部分是在Parquet的上下文中压缩意味着数据被压缩但文件的元数据部分没有被压缩但总是以普通的方式存储。这允许任何处理Parquet文件的处理器读取文件中每个块的统计信息,然后只加载它的相关部分。