实木复合地板支持哪些压缩类型

时间:2018-07-06 05:40:44

标签: apache-spark hadoop hive compression parquet

我当时在Hadoop上编写数据,并使用Spark以镶木地板格式配置单元。我想启用压缩,但是我只能在压缩中找到2种类型-大部分时间都在使用snappy和Gzip。实木复合地板是否还支持Deflate和lzo等其他压缩方式?

2 个答案:

答案 0 :(得分:2)

来自Spark source code, branch 2.1

  

您可以设置以下实木复合地板特定的选项进行写入   实木复合地板文件:

   compression (默认值为spark.sql.parquet.compression.codec中指定的值):在以下情况下使用的压缩编解码器   保存到文件。这可能是已知的不区分大小写的缩写之一   名称(nonesnappygziplzo)。
  覆盖spark.sql.parquet.compression.codec
...

答案 1 :(得分:2)

parquet-format存储库中指定了Apache Parquet支持的压缩类型:https://github.com/apache/parquet-format/blob/54e6133e887a6ea90501ddd72fff5312b7038a7c/src/main/thrift/parquet.thrift#L461

Snappy和Gzip是最常用的,并受所有实现的支持。 LZ4和ZSTD在前两者方面产生了更好的结果,但是在格式上是一个相当新的添加,因此仅在某些实现的较新版本中受支持。