Question

我在Ubuntu 12.04和Hadoop 1.2.1上有一个设置，2节点hadoop集群。虽然我试图运行hadoop字数例子，但我是gettig“Too many fetch faliure error”。我已经推荐了很多文章，但我无法弄清楚Masters，Slaves和/etc/hosts文件中的条目应该是什么。我的节点名称为“master”，ip 10.0.0.1，“slaveone”为ip 10.0.0.2。

我需要帮助/etc/hosts和master节点中的主设备，从设备和slave文件中的条目应该是什么？

Answer 1

如果由于某种原因无法升级群集，可以尝试以下操作：

确保您的主机名绑定到网络IP，/etc/hosts

不

确保您仅使用主机名而不是IP来引用服务。
如果上述内容正确无误，请尝试以下设置：

set mapred.reduce.slowstart.completed.maps=0.80
set tasktracker.http.threads=80
set mapred.reduce.parallel.copies=(>= 10)(10 should probably be sufficient)

同时查看此SO帖子：Why I am getting "Too many fetch-failures" every other day

这一个：Too many fetch failures: Hadoop on cluster (x2)

如果以上情况没有帮助，也可以这样做：http://grokbase.com/t/hadoop/common-user/098k7y5t4n/how-to-deal-with-too-many-fetch-failures 为了简洁和时间的利益，我把我发现的最相关的东西放在这里。

导致连接的第一个原因是获得a   将输出映射为失败。我见过：   1）防火墙   2）错误配置的IP地址（即：任务跟踪器尝试获取   当它查找到的名称时收到了错误的IP地址   tasktracker与地图段）   3）很少见，服务任务跟踪器上的http服务器由于过载而过载   线程不足或监听积压，如果数量可能会发生这种情况   每个reduce的提取量很大，减少的数量或地图的数量   非常大。

可能还有其他一些情况，最近发生在我6000岁的时候   10节点集群上的映射和20个reducer，我认为是上面的案例3。   因为我实际上并不需要减少（我通过计数器得到了我的摘要数据   在地图阶段）我从未重新调整过群集。

编辑：原始答案说“确保您的主机名绑定到网络IP和/etc/hosts中的127.0.0.1”

获取失败太多

1 个答案: