Question

是否可以在Spark中使用自定义压缩算法来读取和写入Parquet文件？

理想情况下，它将配置如下：

sqlContext.setConf("spark.sql.parquet.compression.codec", "myalgo")

Answer 1

不，如上所述in the documentation（此处引用版本2.2.0），唯一可接受的值是

snappy是默认值。

这是由于Parquet本身的限制，它仅使用一组受限制的压缩算法，如this enumeration中所列（对版本1.5.0有效）。