应用错误收集

pods因FailedSync原因失败而无法解释

时间：2017-09-29 20:18:51

标签： kubernetes google-kubernetes-engine

我在谷歌云容器引擎上有一个带有6 n1-standard-1台机器的群集。

我在这个集群上部署了多个服务和pod，有时它们失败的唯一原因FailedSync并没有更多解释，我不知道他们为什么会失败。虚拟机不会过载，只使用6％的CPU和小于1Gi的内存。

这里有一些来自describe命令的事件：

由is system object: true过滤的广告网站有同样的问题，其中一些在4天内重启超过900次......

我想念我的kubernetes配置中的某些东西，我不知道是什么......

感谢您的帮助

2 个答案:

答案 0 :(得分：0)

我认为找出问题的最佳方法就是ssh到节点并使用sudo docker logs $CONTAINER_Id查看应用程序发生了什么。

您可以通过kubectl describe po $PO_NAME或kubectl get po -o wide告诉应用程序部署到哪些节点。

答案 1 :(得分：0)

我终于找到了节点故障的原因。我使用https://eventstore.org/数据库的glusterfs卷，我认为延迟使它失败，我在eventstore日志中看到了很多慢查询。我真的不知道会发生什么，但由于我在群集的同一区域使用持久性ssd磁盘，所以我没有问题。从几天开始重新启动0，节点像魅力一样工作。

我还在一个节点上隔离了这个数据库。