标签: hadoop2 fault-tolerance
我正在尝试配置50个节点的Hadoop 2.6.0群集以实现容错。具体来说,我希望能够突然停止5台服务器并完成我的工作。到目前为止,即使停止1台服务器也会导致我的作业因地图失败错误而失败。
我们在复制因子= 2的同一群集上托管HDFS。
有人可以就如何做到这一点提供指导吗?
看过类似的帖子后,我并不是希望我的工作能够完成数据子集。