曾尝试使用Kubernetes / Rancher,但遇到了一些意外行为。今天,我特意戴上chaos monkey帽子,学习在东西出现故障时情况如何。
这就是我所做的:
1)使用Rancher UI,在Digital Ocean 上站起一个3节点集群 成功-几分钟后,我有了一个3节点群集,可以在Rancher中看到。
2)在“快乐”的情况下,我使用Rancher UI删除了一个节点,在这种情况下,我使用Rancher按下了相应的节点删除按钮。
3)使用 Digital Ocean 管理界面,在“糟糕”情况下删除节点,就好像系统管理员意外删除了一个节点一样。
中的详细超时这是kubectl所说的:
$ kubectl get nodes
Error from server (Timeout): the server was unable to return a response in the time allotted, but may still be processing the request (get nodes)
所以,问题是,这里发生了什么? 我的印象是Kubernetes是“自我修复”的,即使我删除的这个节点是etcd的领导者,它最终也会恢复。大约2个小时了-我是否需要等待更多时间?