我们已经能够将模型(自定义预测和Tensorflow SavedModel格式)部署到AI Prediction Platform,并且基本测试表明事情至少对于在线预测有效。我们现在正在尝试将其投入生产之前进行一些负载测试,并解决一些稳定性问题。
我们看到各种错误- 429-“流量超出了服务容量。请减少流量或减小模型的大小” 503-“上游连接错误或在标头之前断开连接/重置。重置原因:连接失败” 504-“等待通知超时。”
我们已经实现了一种指数补偿方法,随着时间的推移,该方法通常可以解决上述问题。但是,我们要确保我们了解发生了什么。
429似乎很简单-等待事情扩展。
503/504错误,我们不确定原因是什么,以及如何解决/消除。我们使用的是批处理大小(根据TensorFlow model serving on Google AI Platform online prediction too slow with instance batches-似乎没有对较大的批处理进行任何内部优化),机器大小等。不确定是否是资源问题,尽管我们看到这些错误小批量(实例数)。
还有其他人遇到这些问题吗?有什么建议的最佳做法吗?谢谢!