我在HDFS上有300K小的.bz2文件。我正在编写一个猪作业来合并所有文件并生成500个输出.bz2文件。小文件的总大小为300GB。合并后,500个合并文件的总大小约为500GB。 这是我用过的猪脚本。
data = load 'inputFolder'; -- 300K files with total size 300GB
data = DISTINCT data PARALLEL 500;
store data into 'outputFolder'; --500 files with total size 500GB
你能解释一下这个空间是如何增加的吗? Pig还有其他方法可以做同样的事情吗?
谢谢, 贝