Tflite Quant推理比Intel CPU上的TFlite float32慢

时间:2020-10-30 13:17:26

标签: tensorflow tensorflow2.0 quantization tf-lite

我已使用DEFAULT优化(Float32)设置将网络转换为TFlite,其推断速度约为25 fps。当我将其转换为TFlite INT8 Quantized时,是同一网络,并且在INTEL 8核Intel Core i9 2.3 GHz上其推断速度约为2 fps。这在CPU上是预期的吗?请有人解释造成INT8推理速度慢的原因。

1 个答案:

答案 0 :(得分:0)

您可以提供该模型的更多详细信息吗?

可以肯定的是,量化模型小于float32模型。

对于在移动CPU上进行部署,通常量化模型可能会更快。但是,对于英特尔台式机/笔记本电脑CPU可能无法保证。