TensorRT / TFlite示例实现

时间:2019-07-06 05:22:27

标签: tensorflow optimization keras tensorrt

我有一个训练有素的'.h5'Keras模型文件,我正在尝试优化推理时间:

浏览了2个选项:

  1. 通过TensorRT加速推理
  2. 'int8'量化。

这时我可以将模型文件转换为TensorFlow protobuf'.pb'格式,但是作为一个附带说明,它也包含几层的自定义对象。

看到了几篇有关TensorRT转换和TFLite转换的文章,但是我似乎找不到一个清晰易懂的可靠实现。有人可以解释一下这样做(TFLite / Keras Quantization或TensorRT)以便使用相同的模型进行更快的推断。

(接受TensorFlow和Keras支持的其他建议以提高推理速度)

1 个答案:

答案 0 :(得分:0)

这是有关如何在TF中使用TensorRT的用户指南:https://docs.nvidia.com/deeplearning/frameworks/tf-trt-user-guide/index.html

此演讲说明了TensorRT如何在TF中工作:https://developer.nvidia.com/gtc/2019/video/S9431

请注意,TensorRT还支持INT8量化(在培训或培训后)。

此博客文章也具有相同的内容:https://medium.com/tensorflow/high-performance-inference-with-tensorrt-integration-c4d78795fbfe

此存储库有许多示例,展示了如何使用它:https://github.com/tensorflow/tensorrt