我从cloudera经理处收到这些警报。 JOURNAL_NODE_FSYNC_LATENCY的健康测试结果变得令人担忧:前一分钟的第99百分位fsync延迟为2.3秒。警告阈值:1秒。
我检查了cloudera文档,它显示1秒是警告,3秒是关键。造成这个问题的原因是什么以及如何解决这个问题?
答案 0 :(得分:0)
原因; JournalNode Fsync Latency" JOURNAL_NODE_FSYNC_LATENCY"
这是一个JournalNode运行状况测试,用于检查JournalNode的fsync延迟。该测试返回" Bad"如果前一分钟的第99百分位fsync延迟高于配置的阈值,则运行状况良好。较差的fsync性能可能表示磁盘损坏或过载(即JournalNode与NameNode和DataNode共享同一磁盘),并将对NameNode执行的HDFS元数据操作的性能产生负面影响。
如何解决这个问题; 在受影响的节点上使用iostat监视磁盘;或将JournalNode内容移动到单独的磁盘上。