我在Ubuntu 12.04和Hadoop 1.2.1上有一个设置,2节点hadoop集群。
虽然我试图运行hadoop字数例子,但我是gettig“Too many fetch faliure error
”。我已经推荐了很多文章,但我无法弄清楚Masters
,Slaves
和/etc/hosts
文件中的条目应该是什么。
我的节点名称为“master
”,ip
10.0.0.1
,“slaveone”为ip 10.0.0.2
。
我需要帮助/etc/hosts
和master
节点中的主设备,从设备和slave
文件中的条目应该是什么?
答案 0 :(得分:3)
如果由于某种原因无法升级群集,可以尝试以下操作:
/etc/hosts
set mapred.reduce.slowstart.completed.maps=0.80
set tasktracker.http.threads=80
set mapred.reduce.parallel.copies=(>= 10)(10 should probably be sufficient)
同时查看此SO帖子:Why I am getting "Too many fetch-failures" every other day
这一个:Too many fetch failures: Hadoop on cluster (x2)
如果以上情况没有帮助,也可以这样做:http://grokbase.com/t/hadoop/common-user/098k7y5t4n/how-to-deal-with-too-many-fetch-failures 为了简洁和时间的利益,我把我发现的最相关的东西放在这里。
导致连接的第一个原因是获得a 将输出映射为失败。我见过: 1)防火墙 2)错误配置的IP地址(即:任务跟踪器尝试获取 当它查找到的名称时收到了错误的IP地址 tasktracker与地图段) 3)很少见,服务任务跟踪器上的http服务器由于过载而过载 线程不足或监听积压,如果数量可能会发生这种情况 每个reduce的提取量很大,减少的数量或地图的数量 非常大。
可能还有其他一些情况,最近发生在我6000岁的时候 10节点集群上的映射和20个reducer,我认为是上面的案例3。 因为我实际上并不需要减少(我通过计数器得到了我的摘要数据 在地图阶段)我从未重新调整过群集。
编辑:原始答案说“确保您的主机名绑定到网络IP和/etc/hosts
中的127.0.0.1”