我有一个训练有素的'.h5'Keras模型文件,我正在尝试优化推理时间:
浏览了2个选项:
这时我可以将模型文件转换为TensorFlow protobuf'.pb'格式,但是作为一个附带说明,它也包含几层的自定义对象。
看到了几篇有关TensorRT转换和TFLite转换的文章,但是我似乎找不到一个清晰易懂的可靠实现。有人可以解释一下这样做(TFLite / Keras Quantization或TensorRT)以便使用相同的模型进行更快的推断。
(接受TensorFlow和Keras支持的其他建议以提高推理速度)
答案 0 :(得分:0)
这是有关如何在TF中使用TensorRT的用户指南:https://docs.nvidia.com/deeplearning/frameworks/tf-trt-user-guide/index.html
此演讲说明了TensorRT如何在TF中工作:https://developer.nvidia.com/gtc/2019/video/S9431
请注意,TensorRT还支持INT8量化(在培训或培训后)。
此博客文章也具有相同的内容:https://medium.com/tensorflow/high-performance-inference-with-tensorrt-integration-c4d78795fbfe
此存储库有许多示例,展示了如何使用它:https://github.com/tensorflow/tensorrt