Compute Engine运作不正常的实例减少了50%的时间

时间:2019-03-13 09:08:51

标签: kubernetes google-cloud-platform google-compute-engine google-kubernetes-engine

大约3天前,我开始使用google cloud,所以我是一个新手。 我有4个Pod部署到了Google Kubernetes Engine:

  • 前端:反应应用程序,
  • Redis,
  • 后端:由2个容器,一个nodejs服务器和一个cloudsql-proxy组成,
  • Nginx-ingress-controller

**并为我的postgresql数据库运行一个sql实例,因此cloudsql-proxy容器

此设置可以在50%的时间内正常运行,但有时所有吊舱都崩溃或/和重新创建容器

我试图检查所有相关日志,但是我真的不知道哪些实际上相关。但是我发现有一件事与我的问题有关,我正在运行2个VM实例,其中一个可能是错误的实例:

enter image description here 当我悬停加载旋转时,它会说实例正在验证,并且似乎在80%的情况下处于这种状态,如果实例名称旁边没有黄色警告,说资源未准备好

enter image description here 这是实例的cpu用法(所有硬件的趋势都相同),我检查了前端和后端容器的日志,这是 与CPU删除相对应的最新日志:

  

2019-03-13 01:45:23.533 CET-服务器就绪

     

2019-03-13 01:45:33.477 CET-2019/03/13 00:45:33客户端在127.0.0.1:5432上关闭了本地连接

     

2019-03-13 01:54:07.270 CET-纱线运行v1.10.1

enter image description here

正如您在此处看到的那样,所有吊舱都在重新创建...


我认为这可能是由于故障实例不健康造成的:

  对于

实例gke-*****-production-default-pool-0de6d459-qlxk 不健康

...运行状况检查正在进行,并且一次又一次重新创建/重新启动该实例。 告诉我我错了因此,我如何发现导致该实例不正常的原因?

0 个答案:

没有答案