Kubernetes中是否有配置,我可以指定在生成新实例之前排队的最小请求数?
这是上下文:我们为我们的用例设置了强大的高CPU机器,并且每个请求都会在服务器上承担大量负载。一切都很完美,直到我们达到具体的数字说... 300个请求,加速时间为100毫秒。从那时起,我们接收连接拒绝错误一段时间,然后服务器在生成新机器后开始处理它们。处理负载峰值的最佳方法是什么?我正在寻找像"等待延迟"应用引擎中的配置。我的应用程序部署在Google计算引擎上,由Kubernetes精心策划。
答案 0 :(得分:0)
您可以使用readinessProbe
(请参阅container probes)指示容器已准备好为请求提供服务,并使用HorizontalPodAutoscaler
根据观察到的CPU利用率自动调整应用程序的上/下。希望这会有所帮助。