如何使用Hadoop处理.gz输入文件?

时间:2015-11-05 15:27:05

标签: hadoop zip gzip hadoop2 hadoop-partitioning

请允许我提供一个场景:

hadoop jar test.jar Test inputFileFolder outputFileFolder

其中

  • test.jar按键,时间和地点对信息进行排序
  • inputFileFolder包含多个.gz文件,每个.gz文件大约为10GB
  • outputFileFolder包含一堆.gz文件

我的问题是哪个是在inputFileFolder中处理那些.gz文件的最佳方法?谢谢!

1 个答案:

答案 0 :(得分:1)

Hadoop会自动检测并读取.gz文件。但是,由于.gz不是可拆分压缩格式,因此每个文件将由单个映射器读取。最好的办法是使用另一种格式,如Snappy,或者解压缩,拆分和重新压缩成较小的块大小的文件。