如何在ARM设备上使Tensorflow Lite更快(运行量化的tflite mobilenet v1模型)

时间:2018-08-07 22:45:49

标签: tensorflow arm tensorflow-lite

我已经在Pixel 2上测试了tflite对象检测示例。令人惊讶的是,推理时间低至〜50ms。问题是:我们可以在ARM设备上更快地做到这一点吗?

mobilenet v1中的两个主要操作是CONV_2DDEPTHWISE_CONV_2D。对于CONV_2D,我们拥有gemmlowp库的支持,该库同时使用内联NEON汇编和多线程。但是,对于DEPTHWISE_CONV_2D,它仅使用NEON内部函数。 tensorflow团队将来会使用NEON组件实现它吗?

还有其他方法可以减少推理时间吗?任何想法都将受到高度赞赏!

0 个答案:

没有答案