我正在尝试在DataDog中创建一个警报,当磁盘性能降低我们的计算机时会提醒我们。
作为业务要求,我会说如果IO几乎饱和(超过90%)超过30分钟,则应触发警报。
以下是记录的当前指标集:
sys.cpu.iowait
system.io.avg_q_sz
system.io.avg_rq_sz
system.io.await
system.io.r_await
system.io.r_s
system.io.rkb_s
system.io.rrqm_s
system.io.svctm
system.io.util
system.io.w_await
system.io.w_s
system.io.wkb_s
system.io.wrqm_s
可以使用任何公式来组合这些公式,包括SUM和AVG值。
答案 0 :(得分:8)
这些system.io指标是从使用iostat
的{{3}}报告的。
根据system agent check其中一个指标%util
(在Datadog中报告为system.io.util
)似乎可以完成这项工作:
%util:向设备发出I / O请求的CPU时间百分比(设备的带宽利用率)。当此值接近100%时,会发生设备饱和。
您可以创建一个监视器,作为主机/设备上的多重警报,当此指标平均在过去30分钟内超过90时,以下是此类示例的当前屏幕截图:
当然,还可以监控其他iostat指标,以识别其他I / O性能故障模式。