TensorFlow网站声称,量化在移动设备上的延迟降低了3倍: https://www.tensorflow.org/lite/performance/post_training_quantization
我试图验证这一说法,发现量化模型比浮点模型慢了45%-75%,尽管尺寸小了近4倍。不用说,这非常令人失望,并且与Google的声明相冲突。我的测试使用Google的官方MnasNet模型:https://storage.googleapis.com/mnasnet/checkpoints/mnasnet-a1.tar.gz
这是在刚重启的手机上基于100次推理操作的平均延迟时间:
我的测试应用仅测量一种方法的计时(tfLite.runForMultipleInputsOutputs)。结果非常一致(多次执行的误差在1%以内)。
我希望看到Tensorflow团队或任何可以分享其指标的人发表评论。上面的数字基于图像分类器模型。我还测试了具有类似结果的SSD MobileNetV2对象检测器(量化模型速度明显慢)。