应用错误收集

Tensorflow与XLA服务

时间：2019-02-13 13:28:56

标签： tensorflow-serving tensorflow-xla

在使用Tensorflow Serving进行推理时是否可以启用XLA编译？

（我希望这只是未记录的配置问题，我可以避免实现自定义Servable）。

1 个答案:

答案 0 :(得分：1)

@njs，

实际上不建议在推理过程中进行编译。推理时进行编译将导致HBM内存不足，从而导致芯片无法满足请求。

推荐的解决方案是：

使用批处理功能和允许的批处理大小来限制运行时的编译次数。
在模型加载时（而不是推断时）为这些允许的批次大小进行所有编译。这样，您的模型就可以在加载后立即进行推理，而无需在推理时进行高延迟的编译。