有没有办法在Hadoop中为推测执行配置超时?

时间:2010-06-14 19:49:02

标签: hadoop mapreduce

我的hadoop工作的任务预计将运行相当长的时间(几分钟)。然而,hadoop太快开始投机执行。我不想完全关闭推测执行,但我想在考虑投机执行工作之前增加hadoop等待的持续时间。是否有配置选项来控制此超时?

由于

1 个答案:

答案 0 :(得分:0)

我不相信推测执行时间目前是可配置的。另一方面,可能没有必要调整它。推测执行意味着让您摆脱缓慢运行的任务(通常是由于硬件性能下降)。如果你有可用的群集资源,那么spec exec正在进行中,让它这样做有什么害处?请注意,分钟不被视为“重要”,对于中等或较大规模的工作而言,分数超过正常水平。

值得注意的是,虽然mapper spec exec几乎总是很好并且系统开销很低,但是reducer spec exec可能会受到伤害并且可能应该被禁用。基本原理是,如果映射器进展缓慢并且存在数据为本地(正常)的可用资源,则没有共享开销。如果减速器执行缓慢,则启动相同任务的另一次尝试将使网络负载加倍 - 通常是减速器执行中最痛苦的部分。如果网络导致减速器“慢”,则开始第二次尝试只会伤害两次尝试。

如果您确实有一个用于调整规范执行时间的用例,则可能值得在http://issues.apache.org处提交jira。

希望这有帮助。