应用错误收集

正如名称本身所示，只有在有可能结合时才应使用组合器。通常，它应适用于可交换的函数（a.b = b.a）和关联的{a。（b.c）=（a.b）.c}。但这只是为了谨慎，没有硬性和快速的规则，它必须是可交换的和联想的。组合器可能仅在您的键和值的子集上运行，或者可能根本不执行。因此，如果映射器输出中的重复键数量非常少，那么有时使用组合器可能会适得其反，反而成为无用的负担。因此，只有在有足够的组合范围时才使用组合器。

引用Chuck Lam的“行动中的Hadoop”：

“组合器不一定能提高性能。你应该监视作业的行为以查看输出的记录数由组合器有意义地小于记录的数量减少必须证明运行a的额外执行时间是合理的组合。 “

因此，在您的情况下，可以组合的子集数量可能较少，因此运行组合器的开销最终会增加执行时间。

阅读我的文章here。

使用Combiner执行MapReduce的时间

1 个答案: