我正在寻找建议,以尽可能快地实现卷积神经网络推理的卷积算法,而不是培训。
以alexnet,mobilenet,resnet等模型建模的卷积神经网络将在嵌入式ARM设备(A72,A53,A35)上运行,也可能在嵌入式GPU上运行。
我知道那里有各种各样的实现方式,并且NN框架具有各种实现方式,例如直接卷积,基于展开的卷积(im2col),基于FFT或Winograd,但是我的主要重点是在嵌入式设备的性能约束下执行CNN。 >
如果有人有经验并且可以推荐卷积实现的CPU和并行实现,请对研究论文或开放源代码实现表示感谢。
答案 0 :(得分:0)
如果它仍然是实际的。我发现small framework可以推断CPU上的预训练神经网络。它使用Simd Library来加速其工作。该库具有非常快速(单线程)的卷积,池化,Relu和许多其他用于CPU(x86和ARM)的网络层。 CNN卷积包括Winograd的方法。