应用错误收集

是一致还是一读？这是在您的本地hadoop安装或群集上？

我建议在输入分割大小为128MB且运行次数为256MB时记录映射器的数量。这可能会暗示为什么执行时间会减少一分钟。

输入拆分的数量对应于处理输入所需的映射器的数量。如果此数字高于群集上可用的映射插槽，则作业必须等待一组映射器运行，然后才能处理剩余的映射器。但是，如果输入拆分的数量较少（例如，在您的情况下为256MB），则相应的要运行的映射任务的数量小于先前的情况。如果此数字小于或等于群集上的映射插槽数，则可能会同时运行所有映射任务，这可能会更好地执行作业。

Hadoop性能调优

1 个答案: