衡量Hadoop中的执行时间

时间:2016-02-15 14:44:29

标签: hadoop

我想讨论MapReduce作业的总资源使用情况,并想知道如何做到这一点。 Hadoop为作业提供了CPU millis指标,但我想知道这是不是一个好主意。

作为替代方案,我可以添加不同的时间:映射时间,排序时间,合并时间和缩短时间,但这给出的数字与我上面提到的总CPU时间不同。我不知道为什么会这样,我怀疑它是由" IO-wait"时间,即等待资源(如磁盘)变得可用。

最后,在论文中,我经常会找到"执行时间"的引用。这是总时间(所有资源使用的总和),还是经过的时间(结束 - 开始)?

这导致以下两个问题:

  1. 执行时间的定义是什么?这是"经过的时间",还是这个总时间?
  2. 如何才能最好地表示Hadoop中的资源使用情况,CPU是否足够?

0 个答案:

没有答案