快速压缩

时间:2018-08-15 15:58:36

标签: apache-spark hadoop apache-spark-sql parquet snappy

我正在尝试将avro文件存储为具有快速压缩功能的实木复合地板文件。尽管数据使用filename.snappy.parquet作为拼写形式写入,但文件大小保持不变。粘贴代码。

代码:

sqlContext.setConf("spark.sql.parquet.compression.codec","snappy") 

orders_avro.write.parquet("/user/cloudera/problem5/parquet-snappy-compress")

1 个答案:

答案 0 :(得分:0)

快速压缩是parquet-mr(Spark用于写入Parquet文件的库)中的默认压缩方式。因此,唯一更改的是文件名。