我们正在尝试使用hadoop流上的mapred.max.split.size
配置定义映射器的数量。
问题是我们没有看到mapred.max.split.size
与创建的地图制作者数量之间的相关性。
maxsize 356Mb => 9 mappers
maxsize 36Mb => 50 mappers
maxsize 3.7Mb => 190 mappers
任何人都知道为什么会这样?
文件是gzip(大小不一致),我使用CombineFileInputFormat解压缩它们并使输入过程可拆分。