在HDFS上合并小的.bz2压缩文件会增加总大小

时间:2014-03-19 05:56:15

标签: hadoop apache-pig bzip2

我在HDFS上有300K小的.bz2文件。我正在编写一个猪作业来合并所有文件并生成500个输出.bz2文件。小文件的总大小为300GB。合并后,500个合并文件的总大小约为500GB。 这是我用过的猪脚本。

data = load 'inputFolder';   -- 300K files with total size 300GB
data = DISTINCT data PARALLEL 500; 
store data into 'outputFolder';  --500 files with total size 500GB

你能解释一下这个空间是如何增加的吗? Pig还有其他方法可以做同样的事情吗?

谢谢, 贝

0 个答案:

没有答案