应用错误收集

我有一个可用的Kubernetes集群，我想用Grafana进行监视。

我一直在尝试https://grafana.com/dashboards中的许多仪表板，但它们似乎都存在一些问题：普罗米修斯度量标准名称与仪表板期望之间似乎不匹配。

例如，如果我看一下最近发布的，非常受欢迎的仪表板：https://grafana.com/dashboards/5309/revisions

运行它时，我最终遇到了许多“漏洞”：

查看面板配置，我发现问题出在小按键更改上，例如node_memory_Buffers而不是node_memory_Buffers_bytes。

类似地，当Prometheus提供node_disk_bytes_written时，仪表板期望node_disk_written_bytes_total。

我已经尝试了很多 Kubernetes专用的仪表板，并且几乎所有仪表板都存在相同的问题。

我做错什么了吗？

Prometheus节点导出器在0.16.0版本中更改了许多度量标准名称，以符合新的命名约定。

来自https://github.com/prometheus/node_exporter/releases/tag/v0.16.0：

重大更改

此版本包含对度量标准名称的重大更改。许多   指标具有新名称，标签和标签值以便符合   按照当前的命名约定。


Linux node_cpu指标现在将guest值分解为单独的值   指标。

许多计数器指标已重命名为include _total。

许多指标已重命名/修改为包括   基本单位，例如node_cpu现在是node_cpu_seconds_total。

另请参阅upgrade guide。它的建议之一是使用compatibility rules来创建具有旧名称的重复指标。

否则，请使用0.15.x版，直到更新仪表板或对其进行修复！

使用Grafana监视Kubernetes：最新的Prometheus版本缺少大量数据

1 个答案: