为什么我们不能计算Hadoop中的作业执行时间?

时间:2014-11-11 23:04:03

标签: hadoop mapreduce job-scheduling

我的问题与斯特拉格勒问题有关。在排序中,它是一种算法,我们可以知道它的复杂性并计算在一组恒定数据上执行时的运行时间。

为什么我们无法在Hadoop中获得作业执行时间?

如果我们可以获得作业执行时间或任务执行时间,我们可以快速了解落后任务,而无需算法来知道哪个任务是Straggler。

2 个答案:

答案 0 :(得分:2)

作业执行时间或任务执行时间将在作业跟踪器Web UI中提供。希望这是您正在寻找的。Web UI将在您的作业跟踪器的50030端口中可用。如果它是基于纱线的设置网址为http://:8088

答案 1 :(得分:1)

你不应该估计一份工作在完成这项工作之前需要多少时间。 运行mapreduce作业后,您可以估算所花费的时间。 Mapreduce总是取决于您的群集容量 - RAM大小,CPU核心和网络带宽 - 以及您为该任务设置的Reducers数量。

您只能根据RAM大小除以输入分割进行假设。