是时候在Hadoop中完成Map和Reduce任务了

时间:2013-12-28 05:55:00

标签: hadoop

我想 知道这两个计数器的真正含义所有人花费的总时间 占用时隙中的映射(ms)和所有时间花费的总时间减少 占用的时隙(ms)。我刚写了类似于字数的MR程序 我得到了

**占用时隙中所有地图所花费的总时间(毫秒)= 15667400

所有花费的总时间减少占用的时隙(ms)= 158952

花费的CPU时间(毫秒)= 51930

真正的7m38.886s **

为什么会这样??????第一个计数器具有非常高的价值 这实际上是与其他三个无法比拟的。请清楚这一点 对我来说。

谢谢

问候

1 个答案:

答案 0 :(得分:3)

可能需要更多关于输入数据的上下文,但前两个计数器显示在所有map和reduce任务中花费了多少时间。这个数字比其他所有数字都大,因为你可能有一个多节点hadoop集群和一个大的输入数据集 - 这意味着你有许多并行运行的地图任务。假设您有1000个并行运行的地图任务,每个任务需要10秒才能完成 - 在这种情况下,所有映射器的总时间将为1000 * 10,10000秒。实际上,地图阶段可能只需要10-30秒即可完成并行完成,但如果您要以串行方式运行它们,则需要10000秒才能完成单个节点,单个地图插槽群集。

花费的CPU时间是指纯CPU处理总时间的多少 - 这比其他时间要小,因为您的作业主要是IO绑定(读取和写入磁盘,或通过网络)。