应用错误收集

如何使用Hadoop处理.gz输入文件？

时间：2015-11-05 15:27:05

标签： hadoop zip gzip hadoop2 hadoop-partitioning

请允许我提供一个场景：

hadoop jar test.jar Test inputFileFolder outputFileFolder

其中

test.jar按键，时间和地点对信息进行排序
inputFileFolder包含多个.gz文件，每个.gz文件大约为10GB
outputFileFolder包含一堆.gz文件

我的问题是哪个是在inputFileFolder中处理那些.gz文件的最佳方法？谢谢！

1 个答案:

答案 0 :(得分：1)

Hadoop会自动检测并读取.gz文件。但是，由于.gz不是可拆分压缩格式，因此每个文件将由单个映射器读取。最好的办法是使用另一种格式，如Snappy，或者解压缩，拆分和重新压缩成较小的块大小的文件。