系统配置:32核,128GB RAM
我已经成功地使用tensorflow-serving部署了模型,并且通过gRPC请求完成了模型推断。预测时可能在内部调用session.run()。使用这种方法,批量处理100个文档需要3秒。
如果直接部署张量流模型(不使用tf-serving),我们将一批文档传递给session.run(model.prediction,feed_dict = {})并进行推断。
问题是,在性能和优化方面,张量流服务与直接部署有何不同?推断时在tf服务中进行了哪种优化?
谢谢。