我将输入分割大小从128MB增加到256MB。作业的执行时间减少了一分钟。
但我无法理解这种行为。为什么会这样?在什么情况下,我们可以调整输入分割大小?
答案 0 :(得分:0)
是一致还是一读?这是在您的本地hadoop安装或群集上?
我建议在输入分割大小为128MB且运行次数为256MB时记录映射器的数量。这可能会暗示为什么执行时间会减少一分钟。
输入拆分的数量对应于处理输入所需的映射器的数量。如果此数字高于群集上可用的映射插槽,则作业必须等待一组映射器运行,然后才能处理剩余的映射器。但是,如果输入拆分的数量较少(例如,在您的情况下为256MB),则相应的要运行的映射任务的数量小于先前的情况。如果此数字小于或等于群集上的映射插槽数,则可能会同时运行所有映射任务,这可能会更好地执行作业。