应用错误收集

时间：2014-05-07 11:06:34

标签： hadoop hdfs bigdata nfs

我们的Hadoop集群是一个由5个数据节点和2个名称节点组成的集群。流量实际上非常高，一些节点经常出现故障。但他们过了一会儿就回来了。有时需要很长时间，超过半小时才能活着回来。

几乎没有DN比其他DN更多的线程。这是配置问题吗？数据不是写入密集型的。 MR工作每20分钟运行一次。

运行健康监视器两天，间隔半小时采样后，我们发现磁盘验证期间节点会死，每6小时运行一次。所以现在节点可以预测地死掉。但是为什么它们会在磁盘验证期间死掉？无论如何都要防止节点在磁盘验证期间死亡？

答案 0 :(得分：0)

Clouedera's capacity planning提供了对此的见解。如果在重负载下看到“bad connect ack with firstBadLink”，“Bad connect ack”，“No route to host”或“无法获取块”IO异常，则可能是由于网络不良造成的。