我正在gcloud上测试分段模型,推理速度非常慢。获得结果需要 3分钟(平均超过5次)。同样的型号在我的笔记本电脑上通过服务运行时运行~2.5秒。 这是正常的吗?我没有在文档中找到关于如何定义实例类型的任何提及,似乎无法在GPU上进行推理。 我正在使用的步骤相当简单,并遵循示例和教程:
gcloud ml-engine models create "seg_model"
gcloud ml-engine versions create v1 \
--model "seg_model" \
--origin $DEPLOYMENT_SOURCE \
--runtime-version 1.2 \
--staging-bucket gs://$BUCKET_NAME
gcloud ml-engine predict --model ${MODEL_NAME} --version v1 --json-instances request.json
更新:在运行更多实验后,我发现将输出重定向到文件会使推理时间缩短到27秒。模型输出大小为512x512,这可能会导致客户端出现一些延迟。虽然它远低于3分钟,但仍比服务量慢一个数量级。