当镶木地板使用Snappy算法而不是gzip时,将镶木地板数据写入蜂巢的火花工作已经陷入了最后的任务

时间:2017-07-25 08:46:10

标签: hadoop apache-spark apache-spark-sql parquet snappy

我正在从DataFrame向Hive写一个镶木地板文件。当我使用snappy作为镶木地板压缩算法时,我可以看到所有任务,但1完成了写作阶段(例如30/31)。由于gc过程很多,最后一项任务需要很长时间才能完成。

当我使用gzip作为镶木地板压缩算法时,一切都会好的。

我想知道两种压缩算法的区别。

1 个答案:

答案 0 :(得分:1)

Hadoop 自然支持

gzip 。 gzip基于DEFLATE 算法,它是 LZ77和霍夫曼编码的组合。

GZIP压缩使用更多CPU资源而不是 Snappy ,但提供更高的压缩率。

GZip 通常是冷数据良好选项,不常访问

Snappy 是热门数据的最佳选择,经常访问

Snappy 格式为可拆分,但 GZip 则不是。可拆分性与HBase数据无关。

参考:  Data Compression in Hadoop