我正在使用up
指标来监控我的出口商的状态,一旦出口商关闭,就会触发警报,警报规则的expr
是
max_over_time(up[5m])==0.00
时间序列如下:
{instance="172.17.57.16:10104",job="meta-exporter.basic"} 0
{instance="172.17.57.16:10104",job="meta-exporter.volume"} 0
{instance="172.17.57.17:10104",job="meta-exporter.basic"} 0
{instance="172.17.57.17:10104",job="meta-exporter.volume"} 0
{instance="172.17.57.24:10104",job="meta-exporter.basic"} 0
{instance="172.17.57.24:10104",job="meta-exporter.volume"} 0
当前,如果主机上的一个出口商崩溃,将会有一个警报,也就是说,对于上述指标,将有6个警报。
是否可以对这些警报进行分组?例如,如果某些出口商在特定主机上崩溃,它将仅发送一个警报,但会将所有作业的名称合并到该警报标签中,例如:
{instance="172.17.57.24:10104",job="meta-exporter.volume,meta-exporter.basic"} 0
NB:导出器和主机的数量各不相同。