应用错误收集

键的种类是性能的一个因素吗？

时间：2016-09-20 23:20:09

标签： performance hadoop mapreduce

使用 hadoop 和 map-reduce 框架，我认为 reduce tasks必须细粒度，以便不同的节点处理它们可以单独完成。

我认为密钥的数量会影响任务的粒度。那么，是键的数量还是它们的多样性是效率的重要因素？

例如，如果我只有一两把钥匙，这会有问题吗？

1 个答案:

答案 0 :(得分：0)

所有相同的键应该在同一个减速器中结束，然后，如果你只有一个键，那么如果你设置了10个减速器，你真的只使用一个减速器。其余的减速器没有任何输出（但它们将被实例化）。

这是一个名为＆＃34; skew data＆＃34;并且您需要重新定义（并重新分配）您的密钥才能并行运行该过程。

理想情况下，数据应以具有相同数量记录的集合分布，这意味着所有减速器将具有相同的工作量。