可能重复:
Why can't hadoop split up a large text file and then compress the splits using gzip?
我发现当使用gzip压缩的输入文件时,Hadoop选择只分配一个map任务来处理我的map / reduce作业。
gzip压缩文件超过1.4 GB,所以我希望很多mappers可以并行运行(就像使用非压缩文件时一样)
我可以采取哪些配置来改善它吗?
答案 0 :(得分:5)
Gzip文件无法拆分,因此所有数据仅由一个地图处理。必须使用其他压缩文件可以拆分的压缩算法,然后数据将由多个映射处理。这是一篇很好的文章。 (1)
编辑:这是另一篇关于Snappy(2)的文章,该文章来自Google。
(1)http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/