应用错误收集

我负责管理多个团队的普罗米修斯集群。平均CPU利用率是分配的4个CPU内核中的0.6。但是，有时普罗米修斯会在4个内核处使CPu最大化，从而产生严重的突发事件，有时甚至是数小时。

我认为CPU占用率高是由运行许多（效率低下）查询的Grafana仪表板引起的。由于每次都有几个grafana仪表板，因此我很难弄清是什么仪表板甚至查询导致了我的Prometheus集群上的CPU使用率过高。更大的问题是，由于prometheus实例无法及时回答查询，这将导致所有其他仪表板运行非常缓慢。

问题

如何确定哪些查询消耗大量CPU使用率或如何限制查询/小组的CPU使用率？

找出Prometheus中高CPU使用率的查询

0 个答案: