如何使用定制拼花压缩算法?

时间:2018-01-06 11:02:55

标签: apache-spark apache-spark-sql parquet

是否可以在Spark中使用自定义压缩算法来读取和写入Parquet文件?

理想情况下,它将配置如下:

sqlContext.setConf("spark.sql.parquet.compression.codec", "myalgo")

1 个答案:

答案 0 :(得分:4)

不,如上所述in the documentation(此处引用版本2.2.0),唯一可接受的值是

  • uncompressed
  • snappy
  • gzip
  • lzo

snappy是默认值。

这是由于Parquet本身的限制,它仅使用一组受限制的压缩算法,如this enumeration中所列(对版本1.5.0有效)。