我使用了TensorFlow
服务的RESTful API来预测图像分类,tensorflow_model_server
的响应时间超过了一秒钟,但是使用model.predict
仅花费了100毫秒。为什么使用Tensorflow服务需要超过10倍的延迟才能使用Local Model.predict?如何减少延迟?
docker run --gpus all -p 8501:8501 --mount type = bind,source = / home / robert / workspace / tensorflow / lemon / serving_model,target = / models / lemon -e MODEL_NAME = fashion_model -t tensorflow / serving:latest-gpu