应用错误收集

Parquet文件压缩

时间：2016-05-06 22:50:24

标签： apache-spark compression parquet

在Spark中使用时，Parquet文件的最优化压缩逻辑是什么？压缩后每种压缩类型的1gb镶木地板文件的大致尺寸是多少？

3 个答案:

答案 0 :(得分：0)

Refer here for Size Difference between all the compress & uncompress

ORC：如果您在Hive中创建ORC表，则无法从Impala插入，因此您必须在Hive中插入，然后在Impala中插入REFRESH table_name
Avro：据我所知，它与ORC相同
Parquet：您可以在Hive中创建一个表并从Impala中插入

答案 1 :(得分：0)

Duh - 这取决于您拥有的数据类型;文本通常压缩得很好，随机时间戳或浮点值不太好。

查看最新的Apache Big Data会议中的this presentation，特别是幻灯片15-16，其中显示了测试数据集上每列的压缩结果。 > [其余的压力。是关于理论和应用于Parquet内部结构的压缩实践]

答案 2 :(得分：0)

您可以尝试以下步骤在Spark中压缩镶木地板文件：

步骤1：设置压缩类型，配置spark.sql.parquet.compression.codec属性：

sqlContext.setConf（＆＃34; spark.sql.parquet.compression.codec＆＃34;，＆＃34; codec＆＃34;）

步骤2：指定编解码器值。支持的编解码器值为：uncompressed，gzip，lzo和snappy。默认值为gzip。

然后创建一个数据框，比如你的数据，并使用以下命令保存： Df.write.parquet（＆＃34; path_destination＆＃34）如果您现在检查目标文件夹，您将会看到文件已使用您在上面的步骤2中指定的压缩类型进行存储。

有关详细信息，请参阅以下链接： https://www.cloudera.com/documentation/enterprise/5-8-x/topics/spark_parquet.html