我有一个模型(基于Mask_RCNN),已将其导出到可服务对象。我可以在Macbook pro本地的docker容器中使用tf服务来运行它,并使用json API它将在15到20秒内响应,虽然速度不快,但我真的没想到会如此。
我曾尝试在基于DLAMI的各种AWS机器上使用它,还尝试了一些Ubuntu AMI,特别是使用带有gpu,4vcpus和61GB RAM的p2.xlarge。当我执行此操作时,同一模型会在大约90秒钟内做出响应。这些配置是相同的,因为我已经在其中构建了带有模型的docker映像。
我还使用以下AWS示例获得了超时:https://docs.aws.amazon.com/dlami/latest/devguide/tutorial-tfserving.html
其他人是否经历过类似的事情或对如何解决或隔离问题有任何想法?