我已经使用Sagemaker创建了一个端点,并设计了我的系统,使得它被同时调用了大约100次。这似乎导致“模型错误” ,并且花费了太多时间。我是否需要为每个事件创建一个端点,而是为每个端点进行一次呼叫?
答案 0 :(得分:2)
您可以进入cloudwatch日志来诊断模型故障。 实时推理流量扩展可通过以下3个独立维度来解决:
硬件:选择更大或更大型的计算机 机器。例如,您可以load test your model endpoint使用越来越多的计算机,并查看硬件大小何时为您提供可接受的延迟。 SageMaker的自动缩放功能可帮助您自动解决此问题。如果部署深度神经网络,您还可以考虑使用适当的加速器,例如GPU(EC2 P3,EC2 G4)或Amazon Elastic Inference Accelerator,以使每个预测更快。
软件:您有2种方法可在此处进行调整:
科学:某些模型比其他模型慢或重。如果速度和并发性是您优先考虑准确性的前提,并且您已经利用了上面(1)和(2)级别的所有可能技巧,请考虑使用快速通量模型,例如线性模型和结构化数据的逻辑回归,MobileNet或SqueezeNet用于分类(paper)的大型Resnet,而不是用于检测(nice benchmark here的FasterRCNN的Yolov3,等等。但是请注意,与级别(1)和(2)不同,更改模型科学会更改准确性。
如上所述,这三个方面的改进实际上是关于实时推理;如果您有能力预计算所有可能的模型输入,那么最终的低延迟高吞吐量解决方案是离线预计算各种感兴趣的输入预测对,并根据需要从快速数据库或本地读取中提供服务-仅限商店。