我没有在hadoop中获得块压缩的概念。让我们说我有一个1Gb的数据,我想写成块压缩序列文件,默认HDFS Blocksize为128Mb。
是不是意味着,我的数据在HDFS上被分成了8个压缩块,而这些块中的每一个都可以在以后单独解压缩?
答案 0 :(得分:0)
这一切都取决于是否设置了拆分。 (例如,Gzip不支持拆分。)
Splittable意味着可以并行解压缩hdfs块 块不需要共同定位用于序列文件解压缩。
此外,如果您正在使用块压缩,则压缩记录可能跨越多个块,因此再次需要协同定位以进行解压缩。
所以你的块可以独立解压缩,也可以不解压缩。