Hadoop块压缩

时间:2017-06-29 09:11:02

标签: hadoop split compression hdfs hadoop2

我没有在hadoop中获得块压缩的概念。让我们说我有一个1Gb的数据,我想写成块压缩序列文件,默认HDFS Blocksize为128Mb。

是不是意味着,我的数据在HDFS上被分成了8个压缩块,而这些块中的每一个都可以在以后单独解压缩?

1 个答案:

答案 0 :(得分:0)

这一切都取决于是否设置了拆分。 (例如,Gzip不支持拆分。)

  

Splittable意味着可以并行解压缩hdfs块   块不需要共同定位用于序列文件解压缩。

此外,如果您正在使用块压缩,则压缩记录可能跨越多个块,因此再次需要协同定位以进行解压缩。

所以你的块可以独立解压缩,也可以不解压缩。