如何解决GCP AI预测平台中的5xx错误?

时间:2020-09-09 06:30:21

标签: google-cloud-platform tensorflow-serving google-cloud-ml google-cloud-ai google-ai-platform

我们已经能够将模型(自定义预测和Tensorflow SavedModel格式)部署到AI Prediction Platform,并且基本测试表明事情至少对于在线预测有效。我们现在正在尝试将其投入生产之前进行一些负载测试,并解决一些稳定性问题。

我们看到各种错误- 429-“流量超出了服务容量。请减少流量或减小模型的大小” 503-“上游连接错误或在标头之前断开连接/重置。重置原因:连接失败” 504-“等待通知超时。”

我们已经实现了一种指数补偿方法,随着时间的推移,该方法通常可以解决上述问题。但是,我们要确保我们了解发生了什么。

429似乎很简单-等待事情扩展。

503/504错误,我们不确定原因是什么,以及如何解决/消除。我们使用的是批处理大小(根据TensorFlow model serving on Google AI Platform online prediction too slow with instance batches-似乎没有对较大的批处理进行任何内部优化),机器大小等。不确定是否是资源问题,尽管我们看到这些错误小批量(实例数)。

还有其他人遇到这些问题吗?有什么建议的最佳做法吗?谢谢!

0 个答案:

没有答案