我在谷歌云容器引擎上有一个带有6 n1-standard-1
台机器的群集。
我在这个集群上部署了多个服务和pod,有时它们失败的唯一原因FailedSync
并没有更多解释,我不知道他们为什么会失败。虚拟机不会过载,只使用6%的CPU和小于1Gi的内存。
这里有一些来自describe命令的事件:
由is system object: true
过滤的广告网站有同样的问题,其中一些在4天内重启超过900次......
我想念我的kubernetes配置中的某些东西,我不知道是什么......
感谢您的帮助
答案 0 :(得分:0)
我认为找出问题的最佳方法就是ssh到节点并使用sudo docker logs $CONTAINER_Id
查看应用程序发生了什么。
您可以通过kubectl describe po $PO_NAME
或kubectl get po -o wide
告诉应用程序部署到哪些节点。
答案 1 :(得分:0)
我终于找到了节点故障的原因。我使用https://eventstore.org/数据库的glusterfs卷,我认为延迟使它失败,我在eventstore日志中看到了很多慢查询。我真的不知道会发生什么,但由于我在群集的同一区域使用持久性ssd磁盘,所以我没有问题。从几天开始重新启动0,节点像魅力一样工作。
我还在一个节点上隔离了这个数据库。