应用错误收集

如何组合datadog io指标以识别磁盘瓶颈？

时间：2016-02-05 12:33:09

标签： datadog

我正在尝试在DataDog中创建一个警报，当磁盘性能降低我们的计算机时会提醒我们。

作为业务要求，我会说如果IO几乎饱和（超过90％）超过30分钟，则应触发警报。

以下是记录的当前指标集： sys.cpu.iowait system.io.avg_q_sz system.io.avg_rq_sz system.io.await system.io.r_await system.io.r_s system.io.rkb_s system.io.rrqm_s system.io.svctm system.io.util system.io.w_await system.io.w_s system.io.wkb_s system.io.wrqm_s

可以使用任何公式来组合这些公式，包括SUM和AVG值。

1 个答案:

答案 0 :(得分：8)

这些system.io指标是从使用iostat的{{3}}报告的。

根据system agent check其中一个指标%util（在Datadog中报告为system.io.util）似乎可以完成这项工作：

％util：向设备发出I / O请求的CPU时间百分比（设备的带宽利用率）。当此值接近100％时，会发生设备饱和。

您可以创建一个监视器，作为主机/设备上的多重警报，当此指标平均在过去30分钟内超过90时，以下是此类示例的当前屏幕截图：

iostat manpage

当然，还可以监控其他iostat指标，以识别其他I / O性能故障模式。