是否可以在Spark中使用自定义压缩算法来读取和写入Parquet文件?
理想情况下,它将配置如下:
sqlContext.setConf("spark.sql.parquet.compression.codec", "myalgo")
答案 0 :(得分:4)
不,如上所述in the documentation(此处引用版本2.2.0),唯一可接受的值是
uncompressed
,snappy
,gzip
和lzo
snappy
是默认值。
这是由于Parquet本身的限制,它仅使用一组受限制的压缩算法,如this enumeration中所列(对版本1.5.0有效)。