在Spark中使用时,Parquet文件的最优化压缩逻辑是什么?压缩后每种压缩类型的1gb镶木地板文件的大致尺寸是多少?
答案 0 :(得分:0)
Refer here for Size Difference between all the compress & uncompress
答案 1 :(得分:0)
Duh - 这取决于您拥有的数据类型;文本通常压缩得很好,随机时间戳或浮点值不太好。
查看最新的Apache Big Data会议中的this presentation,特别是幻灯片15-16,其中显示了测试数据集上每列的压缩结果。 > [其余的压力。是关于理论和应用于Parquet内部结构的压缩实践]
答案 2 :(得分:0)
您可以尝试以下步骤在Spark中压缩镶木地板文件:
步骤1:设置压缩类型,配置spark.sql.parquet.compression.codec属性:
sqlContext.setConf(" spark.sql.parquet.compression.codec"," codec")
步骤2:指定编解码器值。支持的编解码器值为:uncompressed,gzip,lzo和snappy。默认值为gzip。
然后创建一个数据框,比如你的数据,并使用以下命令保存: Df.write.parquet(" path_destination&#34) 如果您现在检查目标文件夹,您将会看到文件已使用您在上面的步骤2中指定的压缩类型进行存储。
有关详细信息,请参阅以下链接: https://www.cloudera.com/documentation/enterprise/5-8-x/topics/spark_parquet.html