应用错误收集

时间：2019-02-26 19:15:57

标签： conv-neural-network gpgpu

我正在寻找建议，以尽可能快地实现卷积神经网络推理的卷积算法，而不是培训。

以alexnet，mobilenet，resnet等模型建模的卷积神经网络将在嵌入式ARM设备（A72，A53，A35）上运行，也可能在嵌入式GPU上运行。

我知道那里有各种各样的实现方式，并且NN框架具有各种实现方式，例如直接卷积，基于展开的卷积（im2col），基于FFT或Winograd，但是我的主要重点是在嵌入式设备的性能约束下执行CNN。 >

如果有人有经验并且可以推荐卷积实现的CPU和并行实现，请对研究论文或开放源代码实现表示感谢。

答案 0 :(得分：0)

如果它仍然是实际的。我发现small framework可以推断CPU上的预训练神经网络。它使用Simd Library来加速其工作。该库具有非常快速（单线程）的卷积，池化，Relu和许多其他用于CPU（x86和ARM）的网络层。 CNN卷积包括Winograd的方法。