Parquet文件压缩

时间:2016-05-06 22:50:24

标签: apache-spark compression parquet

在Spark中使用时,Parquet文件的最优化压缩逻辑是什么?压缩后每种压缩类型的1gb镶木地板文件的大致尺寸是多少?

3 个答案:

答案 0 :(得分:0)

Refer here for Size Difference between all the compress & uncompress

  1. ORC:如果您在Hive中创建ORC表,则无法从Impala插入,因此您必须在Hive中插入,然后在Impala中插入REFRESH table_name
  2. Avro:据我所知,它与ORC相同
  3. Parquet:您可以在Hive中创建一个表并从Impala中插入

答案 1 :(得分:0)

Duh - 这取决于您拥有的数据类型;文本通常压缩得很好,随机时间戳或浮点值不太好。

查看最新的Apache Big Data会议中的this presentation,特别是幻灯片15-16,其中显示了测试数据集上每列的压缩结果。 > [其余的压力。是关于理论和应用于Parquet内部结构的压缩实践]

答案 2 :(得分:0)

您可以尝试以下步骤在Spark中压缩镶木地板文件:

步骤1:设置压缩类型,配置spark.sql.parquet.compression.codec属性:

sqlContext.setConf(" spark.sql.parquet.compression.codec"," codec")

步骤2:指定编解码器值。支持的编解码器值为:uncompressed,gzip,lzo和snappy。默认值为gzip。

然后创建一个数据框,比如你的数据,并使用以下命令保存: Df.write.parquet(" path_destination&#34) 如果您现在检查目标文件夹,您将会看到文件已使用您在上面的步骤2中指定的压缩类型进行存储。

有关详细信息,请参阅以下链接: https://www.cloudera.com/documentation/enterprise/5-8-x/topics/spark_parquet.html