Question

我正在gcloud上测试分段模型，推理速度非常慢。获得结果需要 3分钟（平均超过5次）。同样的型号在我的笔记本电脑上通过服务运行时运行~2.5秒。这是正常的吗？我没有在文档中找到关于如何定义实例类型的任何提及，似乎无法在GPU上进行推理。我正在使用的步骤相当简单，并遵循示例和教程：

gcloud ml-engine models create "seg_model"
gcloud ml-engine versions create v1 \
--model "seg_model" \
--origin $DEPLOYMENT_SOURCE \
--runtime-version 1.2 \
--staging-bucket gs://$BUCKET_NAME    
gcloud ml-engine predict --model ${MODEL_NAME} --version v1 --json-instances request.json

更新：在运行更多实验后，我发现将输出重定向到文件会使推理时间缩短到27秒。模型输出大小为512x512，这可能会导致客户端出现一些延迟。虽然它远低于3分钟，但仍比服务量慢一个数量级。

gcloud ml-engine预测推断非常缓慢

0 个答案: