快速实现卷积神经网络推理

时间:2019-02-26 19:15:57

标签: conv-neural-network gpgpu

我正在寻找建议,以尽可能快地实现卷积神经网络推理的卷积算法,而不是培训。

以alexnet,mobilenet,resnet等模型建模的卷积神经网络将在嵌入式ARM设备(A72,A53,A35)上运行,也可能在嵌入式GPU上运行。

我知道那里有各种各样的实现方式,并且NN框架具有各种实现方式,例如直接卷积,基于展开的卷积(im2col),基于FFT或Winograd,但是我的主要重点是在嵌入式设备的性能约束下执行CNN。 >

如果有人有经验并且可以推荐卷积实现的CPU和并行实现,请对研究论文或开放源代码实现表示感谢。

1 个答案:

答案 0 :(得分:0)

如果它仍然是实际的。我发现small framework可以推断CPU上的预训练神经网络。它使用Simd Library来加速其工作。该库具有非常快速(单线程)的卷积,池化,Relu和许多其他用于CPU(x86和ARM)的网络层。 CNN卷积包括Winograd的方法。