我正在从DataFrame向Hive写一个镶木地板文件。当我使用snappy作为镶木地板压缩算法时,我可以看到所有任务,但1完成了写作阶段(例如30/31)。由于gc过程很多,最后一项任务需要很长时间才能完成。
当我使用gzip作为镶木地板压缩算法时,一切都会好的。
我想知道两种压缩算法的区别。
答案 0 :(得分:1)
gzip 。 gzip基于DEFLATE 算法,它是 LZ77和霍夫曼编码的组合。
GZIP压缩使用更多CPU资源而不是 Snappy ,但提供更高的压缩率。
GZip 通常是冷数据的良好选项,不常访问。
Snappy 是热门数据的最佳选择,经常访问。
Snappy 格式为可拆分,但 GZip 则不是。可拆分性与HBase数据无关。