应用错误收集

如何检测Kubernetes中的临时网络分区？

时间：2017-11-09 09:57:49

标签： amazon-web-services kubernetes

我们在AWS VPC上设置了一个Kubernetes集群，其中包含10个以上的节点。我们遇到了一个事件，其中一个节点无法被其他节点访问，反之亦然约10分钟。找到这个花了很多时间。

Kubernetes或AWS是否有工具来检测这类网络问题？也许类似于守护进程集，其中每个吊舱ping网络中的其他吊舱并在ping失败时记录它。

1 个答案:

答案 0 :(得分：0)

如果您最感兴趣的是在发生此类问题时收到警报，我会建立监控系统，并将其与alertmanager之类的东西联系起来。要收集指标，您可以查看Prometheus等开源项目。设置完成后，可以很容易地将其与Grafana（用于仪表板）和alertmanager（根据您在Prometheus中指定的规则进行警报）集成。它们都是开源项目。

https://prometheus.io/

如何检测临时文件中的分隔符？
如何检测Kubernetes中的临时网络分区？
将网络标志--network-plugin = cni添加到kubelet
如何使用临时帮助数据库运行kubernetes作业
如何将临时数据存储到Kubernetes Cluster？
如何使Ingress连接到我的网络中的Pod
如何在kubernetes中卸载分区
如何动态设置Kubernetes网络策略中的信息？
如何在k8s中检测哪个Pod发出网络请求？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？