我负责管理多个团队的普罗米修斯集群。平均CPU利用率是分配的4个CPU内核中的0.6。但是,有时普罗米修斯会在4个内核处使CPu最大化,从而产生严重的突发事件,有时甚至是数小时。
我认为CPU占用率高是由运行许多(效率低下)查询的Grafana仪表板引起的。由于每次都有几个grafana仪表板,因此我很难弄清是什么仪表板甚至查询导致了我的Prometheus集群上的CPU使用率过高。更大的问题是,由于prometheus实例无法及时回答查询,这将导致所有其他仪表板运行非常缓慢。
问题
如何确定哪些查询消耗大量CPU使用率或如何限制查询/小组的CPU使用率?