我已经在Pixel 2上测试了tflite对象检测示例。令人惊讶的是,推理时间低至〜50ms。问题是:我们可以在ARM设备上更快地做到这一点吗?
mobilenet v1中的两个主要操作是CONV_2D
和DEPTHWISE_CONV_2D
。对于CONV_2D
,我们拥有gemmlowp
库的支持,该库同时使用内联NEON汇编和多线程。但是,对于DEPTHWISE_CONV_2D
,它仅使用NEON内部函数。 tensorflow团队将来会使用NEON组件实现它吗?
还有其他方法可以减少推理时间吗?任何想法都将受到高度赞赏!