获取失败太多

时间:2015-01-16 07:10:07

标签: hadoop

我在Ubuntu 12.04和Hadoop 1.2.1上有一个设置,2节点hadoop集群。 虽然我试图运行hadoop字数例子,但我是gettig“Too many fetch faliure error”。我已经推荐了很多文章,但我无法弄清楚MastersSlaves/etc/hosts文件中的条目应该是什么。 我的节点名称为“master”,ip 10.0.0.1,“slaveone”为ip 10.0.0.2

我需要帮助/etc/hostsmaster节点中的主设备,从设备和slave文件中的条目应该是什么?

1 个答案:

答案 0 :(得分:3)

如果由于某种原因无法升级群集,可以尝试以下操作:

  1. 确保您的主机名绑定到网络IP,/etc/hosts
  2. 中的 127.0.0.1
  3. 确保您仅使用主机名而不是IP来引用服务。
  4. 如果上述内容正确无误,请尝试以下设置:

  5. set mapred.reduce.slowstart.completed.maps=0.80
    set tasktracker.http.threads=80
    set mapred.reduce.parallel.copies=(>= 10)(10 should probably be sufficient)
    

    同时查看此SO帖子:Why I am getting "Too many fetch-failures" every other day

    这一个:Too many fetch failures: Hadoop on cluster (x2)

    如果以上情况没有帮助,也可以这样做:http://grokbase.com/t/hadoop/common-user/098k7y5t4n/how-to-deal-with-too-many-fetch-failures 为了简洁和时间的利益,我把我发现的最相关的东西放在这里。

      

    导致连接的第一个原因是获得a   将输出映射为失败。我见过:   1)防火墙   2)错误配置的IP地址(即:任务跟踪器尝试获取   当它查找到的名称时收到了错误的IP地址   tasktracker与地图段)   3)很少见,服务任务跟踪器上的http服务器由于过载而过载   线程不足或监听积压,如果数量可能会发生这种情况   每个reduce的提取量很大,减少的数量或地图的数量   非常大。

         

    可能还有其他一些情况,最近发生在我6000岁的时候   10节点集群上的映射和20个reducer,我认为是上面的案例3。   因为我实际上并不需要减少(我通过计数器得到了我的摘要数据   在地图阶段)我从未重新调整过群集。

    编辑:原始答案说“确保您的主机名绑定到网络IP和/etc/hosts中的127.0.0.1”