我已使用DEFAULT优化(Float32)设置将网络转换为TFlite,其推断速度约为25 fps。当我将其转换为TFlite INT8 Quantized时,是同一网络,并且在INTEL 8核Intel Core i9 2.3 GHz上其推断速度约为2 fps。这在CPU上是预期的吗?请有人解释造成INT8推理速度慢的原因。
答案 0 :(得分:0)
您可以提供该模型的更多详细信息吗?
可以肯定的是,量化模型小于float32模型。
对于在移动CPU上进行部署,通常量化模型可能会更快。但是,对于英特尔台式机/笔记本电脑CPU可能无法保证。