状态为“未知”的Prometheus作业“ kubernetes-nodes”端点

时间:2019-06-11 16:57:51

标签: kubernetes prometheus

我们面临一个问题,即某些端点处于“未知”状态。普罗米修斯的工作“ kubernetes-nodes”。

节点和Prometheus都运行了几天。我们试图卷曲那些处于“未知”状态的“ kubernetes-nodes”端点。指标可以正确卷曲,但端点状态仍为“未知”。我们不知道原因(标准,在这种情况下,它将被标记为“未知”)。

我知道在Prometheus进行第一次刮擦之前,端点处于“未知”状态。然后,如果抓取成功,则端点将为“ UP”,如果失败,则为“ DOWN”。但是,在下面的屏幕快照中,似乎某些端点从未被废弃……我们只是不知道为什么。

关于这种情况的可能原因,您能否提供建议? 这是否表示此节点(名称隐藏在红色块中...)有问题?如果是这样,是否有可能修复,这将使Prometheus将其视为“ UP”?

谢谢。

enter image description here

- job_name: kubernetes-nodes
  scrape_interval: 1m
  scrape_timeout: 10s
  metrics_path: /metrics
  scheme: https
  kubernetes_sd_configs:
  - api_server: null
    role: node
    namespaces:
      names: []
  bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
  tls_config:
    ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
    insecure_skip_verify: true
  relabel_configs:
  - separator: ;
    regex: __meta_kubernetes_node_label_(.+)
    replacement: $1
    action: labelmap
  - separator: ;
    regex: (.*)
    target_label: __address__
    replacement: kubernetes.default.svc:443
    action: replace
  - source_labels: [__meta_kubernetes_node_name]
    separator: ;
    regex: (.+)
    target_label: __metrics_path__
    replacement: /api/v1/nodes/${1}/proxy/metrics
    action: replace
  - source_labels: [__meta_kubernetes_namespace]
    separator: ;
    regex: (.*)
    target_label: namespace
    replacement: $1
    action: replace

1 个答案:

答案 0 :(得分:0)

我认为您在Prometheus群集角色中缺少nodes/proxy资源。这是官方示例github.com/prometheus/documentation/examples/rbac-setup.yml