我们在AWS VPC上设置了一个Kubernetes集群,其中包含10个以上的节点。我们遇到了一个事件,其中一个节点无法被其他节点访问,反之亦然约10分钟。找到这个花了很多时间。
Kubernetes或AWS是否有工具来检测这类网络问题?也许类似于守护进程集,其中每个吊舱ping网络中的其他吊舱并在ping失败时记录它。
答案 0 :(得分:0)
如果您最感兴趣的是在发生此类问题时收到警报,我会建立监控系统,并将其与alertmanager之类的东西联系起来。要收集指标,您可以查看Prometheus等开源项目。设置完成后,可以很容易地将其与Grafana(用于仪表板)和alertmanager(根据您在Prometheus中指定的规则进行警报)集成。它们都是开源项目。