为什么量化tflite模型的推理要比Raspberry Pi上未量化的tflite模型慢

时间:2020-06-26 10:39:07

标签: python raspberry-pi inference quantization tf-lite

我有两个keras模型,分别命名为model1.h5和model2.h5。

  • 它们通过代码转换为tflite模型,分别命名为model1.tflite和model2.tflite:

    converter = tf.lite.TFLiteConverter.from_keras_model(model)
    tflite_model = converter.convert()

  • 它们被量化并通过代码转换为tflite模型,分别称为quanmodel1.tflite和quanmodel2.tflite:

    转换器= tf.lite.TFLiteConverter.from_keras_model(模型) converter.optimizations = [tf.lite.Optimize.DEFAULT]
    tflite_quant_model = converter.convert()

当我在Raspberry Pi上运行四个tflite模型进行推理时,我发现每个图像的推理速度(如下所示)很奇怪:

model1.tflite(模型大小240 KB)-0.1秒;

quanmodel1.tflite(模型大小68KB)-0.2s;

model2.tflite(模型大小1990 KB)-0.17秒;

quanmodel2.tflite(模型大小514 KB)-0.1s。

为什么model1.tflite的推理速度快于量化模型(quanmodel1.tflite),而model2.tflite的推理速度却慢于quanmodel2.tflite?

0 个答案:

没有答案