Hadoop reducer错误:“随机错误:超过中止失败限制;纾困”

时间:2013-01-20 14:47:22

标签: hadoop mapreduce

我有一个hadoop 0.20地图/减少工作,以前运行得很好。在过去的几天里,它在16.66%的降阶段陷入困境,当我看到jobtracker中的reduce任务时,我看到了以下错误;

Shuffle Error: Exceeded the abort failure limit; bailing-out.

任何人都可以告诉我这意味着什么,并且可能指出我正确的方向,以便我能弄清楚如何解决这个问题?

1 个答案:

答案 0 :(得分:1)

此错误对应于reducer在报告地图输出并尝试映射到属性mapreduce.reduce.shuffle.maxfetchfailures之前尝试获取地图输出的最大次数。

您可以尝试增加此属性,但默认值10通常已足够,因此可能会出现更严重的情况。

我记得有一个类似于提取失败的情况是由于 / etc / hosts 文件不正确而在google搜索后看起来这可能是个问题,请尝试以下方法:< / p>

  • 使用主机名代替ips
  • 在所有节点上同步/ etc / hosts(如果使用像Puppet这样的东西,则更容易)
  • 尝试发表评论“127.0.0.1 localhost”
  • 重新启动群集