hadoop - 当镶木地板使用Snappy算法而不是gzip时，将镶木地板数据写入蜂巢的火花工作已经陷入了最后的任务

时间：2017-07-25 08:46:10

标签： hadoop apache-spark apache-spark-sql parquet snappy

我正在从DataFrame向Hive写一个镶木地板文件。当我使用snappy作为镶木地板压缩算法时，我可以看到所有任务，但1完成了写作阶段（例如30/31）。由于gc过程很多，最后一项任务需要很长时间才能完成。

当我使用gzip作为镶木地板压缩算法时，一切都会好的。

我想知道两种压缩算法的区别。

答案 0 :(得分：1)

Hadoop 自然支持

gzip 。 gzip基于DEFLATE 算法，它是 LZ77和霍夫曼编码的组合。

GZIP压缩使用更多CPU资源而不是 Snappy ，但提供更高的压缩率。

GZip 通常是冷数据的良好选项，不常访问。

Snappy 是热门数据的最佳选择，经常访问。

Snappy 格式为可拆分，但 GZip 则不是。可拆分性与HBase数据无关。