我已阅读许多声明
的博客/网页映射器的运行时间应超过X分钟
我知道设置映射器需要管理费用,但这究竟是如何计算出来的?为什么在X分钟之后,开销是合理的呢?当我们讨论开销时,Hadoop的开销是多少?
答案 0 :(得分:0)
它不是一个硬代码规则,但有道理。在后台,在映射器启动之前处理了很多小进程。它的初始化,除了真正的处理之外的其他东西本身需要10-15秒。因此,为了减少分割数量,这反过来会减少映射器数量,maxsplitsize可以设置为某个更高的值,这是博客传达的。如果我们不这样做。以下是MR框架在创建映射器时必须处理的开销。