应用错误收集

我们已经能够将模型（自定义预测和Tensorflow SavedModel格式）部署到AI Prediction Platform，并且基本测试表明事情至少对于在线预测有效。我们现在正在尝试将其投入生产之前进行一些负载测试，并解决一些稳定性问题。

我们看到各种错误- 429-“流量超出了服务容量。请减少流量或减小模型的大小” 503-“上游连接错误或在标头之前断开连接/重置。重置原因：连接失败” 504-“等待通知超时。”

我们已经实现了一种指数补偿方法，随着时间的推移，该方法通常可以解决上述问题。但是，我们要确保我们了解发生了什么。

429似乎很简单-等待事情扩展。

503/504错误，我们不确定原因是什么，以及如何解决/消除。我们使用的是批处理大小（根据TensorFlow model serving on Google AI Platform online prediction too slow with instance batches-似乎没有对较大的批处理进行任何内部优化），机器大小等。不确定是否是资源问题，尽管我们看到这些错误小批量（实例数）。

还有其他人遇到这些问题吗？有什么建议的最佳做法吗？谢谢！

如何解决GCP AI预测平台中的5xx错误？

0 个答案: