Hadoop gzip输入文件只使用一个映射器

时间:2011-09-12 13:13:58

标签: hadoop gzip mapreduce

  

可能重复:
  Why can't hadoop split up a large text file and then compress the splits using gzip?

我发现当使用gzip压缩的输入文件时,Hadoop选择只分配一个map任务来处理我的map / reduce作业。

gzip压缩文件超过1.4 GB,所以我希望很多mappers可以并行运行(就像使用非压缩文件时一样)

我可以采取哪些配置来改善它吗?

1 个答案:

答案 0 :(得分:5)

Gzip文件无法拆分,因此所有数据仅由一个地图处理。必须使用其他压缩文件可以拆分的压缩算法,然后数据将由多个映射处理。这是一篇很好的文章。 (1)

编辑:这是另一篇关于Snappy(2)的文章,该文章来自Google。

(1)http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

(2)http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/