我登录主机并看到此主机检查失败
# curl -s http://localhost:8500/v1/agent/checks | python -m json.tool | grep -B5 critical
"Node": "hostwrefr5.local",
"Notes": "Disk usage checking Warning: 5% - Critical: 2%",
"Output": "DISK CRITICAL - free space: / 3044 MB (67% inode=85%); /dev 910 MB (100% inode=99%); /run 831 MB (90% inode=99%); /sys/fs/cgroup 920 MB (100% inode=99%); /home 451 MB (99% inode=99%); /var/log 0 MB (0% inode=99%); /var/log/audit 426 MB (94% inode=99%); /opt 221 MB (99% inode=99%); /boot 362 MB (71% inode=99%); /tmp 1382 MB (99% inode=99%); /usr/local 221 MB (99% inode=99%); /var/lib/consul 865 MB (95% inode=99%);| /=1482MB;4553;4697;0;4793 /dev=0MB;864;891;0;910 /run=88MB;874;901;0;920 /sys/fs/cgroup=0MB;874;901;0;920 /home=0MB;462;477;0;487 /var/log=712MB;691;713;0;728 /var/log/audit=25MB;462;477;0;487 /opt=2MB;227;234;0;239 /boot=145MB;482;497;0;508 /tmp=4MB;1405;1449;0;1479 /usr/local=2MB;227;234;0;239 /var/lib/consul=43MB;926;955;0;975\n",
"ServiceID": "rdgd/disk-usage",
"ServiceName": "rdgd/disk-usage",
"Status": "critical"
我在CLI命令中搜索整个consul集群中所有失败的检查。
你在Consul UI上看到的东西(所有节点都失败或所有服务都失败)
我们的Consul UI受HTTP Auth
保护答案 0 :(得分:1)
可以在数据中心列出services by status。
<强> / V1 /健康/状态/&LT;状态&GT; 强>
使用GET命中此端点并返回状态中的检查 提供在路径上。
您需要为您感兴趣的每个州和每个数据中心查询一次。