我当时在Hadoop上编写数据,并使用Spark以镶木地板格式配置单元。我想启用压缩,但是我只能在压缩中找到2种类型-大部分时间都在使用snappy和Gzip。实木复合地板是否还支持Deflate和lzo等其他压缩方式?
答案 0 :(得分:2)
来自Spark source code, branch 2.1:
您可以设置以下实木复合地板特定的选项进行写入 实木复合地板文件:
compression
(默认值为spark.sql.parquet.compression.codec
中指定的值):在以下情况下使用的压缩编解码器 保存到文件。这可能是已知的不区分大小写的缩写之一 名称(none
,snappy
,gzip
和lzo
)。
覆盖spark.sql.parquet.compression.codec
...
答案 1 :(得分:2)
在parquet-format
存储库中指定了Apache Parquet支持的压缩类型:https://github.com/apache/parquet-format/blob/54e6133e887a6ea90501ddd72fff5312b7038a7c/src/main/thrift/parquet.thrift#L461
Snappy和Gzip是最常用的,并受所有实现的支持。 LZ4和ZSTD在前两者方面产生了更好的结果,但是在格式上是一个相当新的添加,因此仅在某些实现的较新版本中受支持。