python-3.x - 阻止Tensorflow服务分配包含嵌入的Tensor

我正在寻找一种方法来防止张量流服务分配大的嵌入张量。我的张量是几千兆字节。它是预先训练的，所以我防止它在训练期间被更改。我可以马上进行训练。该模型是一个自定义的TF估算器，已导出为SavedModel。

我使用Tensorflow-serving托管模型。在运行时，如果并发请求太多，则可能会生成OOM错误。似乎它正在重复分配嵌入张量（基于错误消息中它的形状）。有没有一种方法可以防止在推断过程中张量流制作该张量的多个副本？

一位同事建议，在导出过程中，张量流可能将张量内联为常数。我在网上发现的相关信息很少。