TensorFlow Lite量化无法改善推理延迟

时间:2019-05-02 18:20:09

标签: tensorflow tensorflow-lite quantization

TensorFlow网站声称,量化在移动设备上的延迟降低了3倍: https://www.tensorflow.org/lite/performance/post_training_quantization

我试图验证这一说法,发现量化模型比浮点模型慢了45%-75%,尽管尺寸小了近4倍。不用说,这非常令人失望,并且与Google的声明相冲突。

我的测试使用Google的官方MnasNet模型:https://storage.googleapis.com/mnasnet/checkpoints/mnasnet-a1.tar.gz

这是在刚重启的手机上基于100次推理操作的平均延迟时间:

  • 像素2:float = 81ms,quant = 118ms
  • Moto E:float = 337ms,quant = 590ms
  • LG宝藏:float = 547ms,quant = 917ms

我的测试应用仅测量一种方法的计时(tfLite.runForMultipleInputsOutputs)。结果非常一致(多次执行的误差在1%以内)。

我希望看到Tensorflow团队或任何可以分享其指标的人发表评论。上面的数字基于图像分类器模型。我还测试了具有类似结果的SSD MobileNetV2对象检测器(量化模型速度明显慢)。

0 个答案:

没有答案