我想讨论MapReduce作业的总资源使用情况,并想知道如何做到这一点。 Hadoop为作业提供了CPU millis指标,但我想知道这是不是一个好主意。
作为替代方案,我可以添加不同的时间:映射时间,排序时间,合并时间和缩短时间,但这给出的数字与我上面提到的总CPU时间不同。我不知道为什么会这样,我怀疑它是由" IO-wait"时间,即等待资源(如磁盘)变得可用。
最后,在论文中,我经常会找到"执行时间"的引用。这是总时间(所有资源使用的总和),还是经过的时间(结束 - 开始)?
这导致以下两个问题: