我们的Hadoop集群是一个由5个数据节点和2个名称节点组成的集群。流量实际上非常高,一些节点经常出现故障。但他们过了一会儿就回来了。有时需要很长时间,超过半小时才能活着回来。
几乎没有DN比其他DN更多的线程。这是配置问题吗? 数据不是写入密集型的。 MR工作每20分钟运行一次。
运行健康监视器两天,间隔半小时采样后,我们发现磁盘验证期间节点会死,每6小时运行一次。所以现在节点可以预测地死掉。但是为什么它们会在磁盘验证期间死掉?无论如何都要防止节点在磁盘验证期间死亡?
答案 0 :(得分:0)
Clouedera's capacity planning提供了对此的见解。如果在重负载下看到“bad connect ack with firstBadLink”,“Bad connect ack”,“No route to host”或“无法获取块”IO异常,则可能是由于网络不良造成的。