我在文档中找不到有关如何在TensorFlow Serving中保存和加载模型以及在CPU与GPU上运行时可能存在差异的特定信息。
为服务多个模型(以及每个模型的一个或多个版本),一种常规工作流程为:
我目前正在CPU上进行推理,并立即加载许多模型,这比预期更快地消耗了RAM。保存的模型在磁盘上相对较小,但是当TF Serving将模型加载到内存中时,其大小几乎增加了一个数量级。磁盘上的一个 200MB 保存的模型在RAM中变成了 1.5GB ,极大地限制了可以加载的模型数量。
答案 0 :(得分:0)
是的。
不,CPU / GPU无关紧要
由于GPU内存少于系统内存,因此您可能需要更少的GPU内存。