我们面临一个问题,即某些端点处于“未知”状态。普罗米修斯的工作“ kubernetes-nodes”。
节点和Prometheus都运行了几天。我们试图卷曲那些处于“未知”状态的“ kubernetes-nodes”端点。指标可以正确卷曲,但端点状态仍为“未知”。我们不知道原因(标准,在这种情况下,它将被标记为“未知”)。
我知道在Prometheus进行第一次刮擦之前,端点处于“未知”状态。然后,如果抓取成功,则端点将为“ UP”,如果失败,则为“ DOWN”。但是,在下面的屏幕快照中,似乎某些端点从未被废弃……我们只是不知道为什么。
关于这种情况的可能原因,您能否提供建议? 这是否表示此节点(名称隐藏在红色块中...)有问题?如果是这样,是否有可能修复,这将使Prometheus将其视为“ UP”?
谢谢。
- job_name: kubernetes-nodes
scrape_interval: 1m
scrape_timeout: 10s
metrics_path: /metrics
scheme: https
kubernetes_sd_configs:
- api_server: null
role: node
namespaces:
names: []
bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
tls_config:
ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
insecure_skip_verify: true
relabel_configs:
- separator: ;
regex: __meta_kubernetes_node_label_(.+)
replacement: $1
action: labelmap
- separator: ;
regex: (.*)
target_label: __address__
replacement: kubernetes.default.svc:443
action: replace
- source_labels: [__meta_kubernetes_node_name]
separator: ;
regex: (.+)
target_label: __metrics_path__
replacement: /api/v1/nodes/${1}/proxy/metrics
action: replace
- source_labels: [__meta_kubernetes_namespace]
separator: ;
regex: (.*)
target_label: namespace
replacement: $1
action: replace
答案 0 :(得分:0)
我认为您在Prometheus群集角色中缺少nodes/proxy
资源。这是官方示例github.com/prometheus/documentation/examples/rbac-setup.yml。