使用tensorflow session.run()进行预测和使用tf-serving进行预测的性能有何不同?

时间:2018-10-09 07:51:17

标签: tensorflow tensorflow-serving

系统配置:32核,128GB RAM

我已经成功地使用tensorflow-serving部署了模型,并且通过gRPC请求完成了模型推断。预测时可能在内部调用session.run()。使用这种方法,批量处理100个文档需要3秒。

如果直接部署张量流模型(不使用tf-serving),我们将一批文档传递给session.run(model.prediction,feed_dict = {})并进行推断。

问题是,在性能和优化方面,张量流服务与直接部署有何不同?推断时在tf服务中进行了哪种优化?

谢谢。

0 个答案:

没有答案