应用错误收集

Hadoop gzip输入文件只使用一个映射器

时间：2011-09-12 13:13:58

标签： hadoop gzip mapreduce

可能重复：
Why can't hadoop split up a large text file and then compress the splits using gzip?

我发现当使用gzip压缩的输入文件时，Hadoop选择只分配一个map任务来处理我的map / reduce作业。

gzip压缩文件超过1.4 GB，所以我希望很多mappers可以并行运行（就像使用非压缩文件时一样）

我可以采取哪些配置来改善它吗？

1 个答案:

答案 0 :(得分：5)

Gzip文件无法拆分，因此所有数据仅由一个地图处理。必须使用其他压缩文件可以拆分的压缩算法，然后数据将由多个映射处理。这是一篇很好的文章。（1）

编辑：这是另一篇关于Snappy（2）的文章，该文章来自Google。

（1）http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

（2）http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/