当CPU使用率超过70%持续5分钟时,我已为我的GKE群集设置了自动缩放策略。但有时突然出现峰值,服务器崩溃。 Google Cloud Compute实例将被终止并启动新实例。
在Stackdriver监控中,如何查看已终止GCP实例的指标或有任何替代方案。
答案 0 :(得分:0)
根据我的理解,GKE自动缩放基于检查来查看是否有任何Pod未被调度并且正在等待具有可用资源的节点。如果存在此类Pod,并且自动缩放器确定调整节点池的大小将允许调度等待的Pod,则自动缩放器会扩展该节点池。
群集自动规划器还会根据节点池对容量的总需求来衡量每个节点的使用情况。如果某个节点在一段时间内没有安排新的Pod,并且该节点上运行的所有Pod都可以调度到池中的其他节点,则自动调节器会移动Pod并删除该节点。
听起来,您已经配置了托管实例组自动缩放器。
Google documentation建议不要在群集节点上使用托管实例组自动缩放。
警告:请勿启用Google Compute Engine的自动缩放功能 集群节点的托管实例组。 Kubernetes Engine's cluster autoscaler与Compute Engine自动缩放分开。
但是,据我所知,您仍然可以在删除实例30天后检索已删除实例的指标数据。为此,您可以使用实例ID而不是实例名称。
然后,您可以通过导航到:
来检查Stackdriver监视以获取有关该实例的信息https://app.google.stackdriver.com/instances/INSTANCE-ID?project=PROJECT-ID
可以通过查看Stackdrivers监控视图中的相关资源,或运行以下命令并搜索id值来检索实例ID:
gcloud compute instances describe INSTANCE_NAME --zone ZONE