我有一个在Kubernetes(Azure AKS)中运行的应用程序,其中每个Pod包含两个容器。我还设置了Grafana,以显示各种度量标准,其中一些来自Prometheus。我正在尝试对另一个问题进行故障排除,因此我注意到某些指标似乎在数据源之间不匹配。
例如,kube_deployment_status_replicas_available
返回值30,而kubectl -n XXXXXXXX get pod
列出100个都在运行,而kube_deployment_status_replicas_unavailable
返回值0。此外,如果我有问题的部署使用kubectl
,我看到了期望值。
$ kubectl get deployment XXXXXXXX
NAME DESIRED CURRENT UP-TO-DATE AVAILABLE AGE
XXXXXXXX 100 100 100 100 49d
在同一群集中还有其他所有值正确关联的应用程序(命名空间),因此我不确定故障可能出在哪里,或者不确定是否有办法确定哪个值是正确的。任何指导将不胜感激。谢谢
答案 0 :(得分:2)
基于拥有kube_deployment_status_replicas_available
指标的假设,我假设您有Prometheus从kube-state-metrics抓取指标。听起来它的部署有些古怪。可能是:
我会
kubectl logs
kube-state-metrics` --log.level=debug
标志启动Prometheus。希望有帮助。