使用PIG处理小文件

时间:2013-09-04 15:48:47

标签: hadoop mapreduce apache-pig

根据我的理解,Map / Reduce可以更好地处理大文件。 (我理解它由于分裂逻辑等),我们可以将文件作为值和文件名作为密钥存储在序列文件中并进行优化。

现在的问题是我使用PIG进行分析,我们有大约数千个文件,但都是KB。正如我们所知,猪拉丁被转换并作为MR工作运行,所以我怀疑由于文件很小,MR工作将无效。

有什么办法可以控制处理猪的小文件? 是否有开箱即用的解决方案?

1 个答案:

答案 0 :(得分:2)

Pig具有将小文件组合成更大块的功能: http://pig.apache.org/docs/r0.11.1/perf.html#combine-files