在使用Tensorflow Serving进行推理时是否可以启用XLA编译?
(我希望这只是未记录的配置问题,我可以避免实现自定义Servable)。
答案 0 :(得分:1)
@njs,
实际上不建议在推理过程中进行编译。推理时进行编译将导致HBM内存不足,从而导致芯片无法满足请求。
推荐的解决方案是:
使用批处理功能和允许的批处理大小来限制运行时的编译次数。
在模型加载时(而不是推断时)为这些允许的批次大小进行所有编译。这样,您的模型就可以在加载后立即进行推理,而无需在推理时进行高延迟的编译。