用于CPU的C优化2D卷积库?

时间:2013-05-02 06:33:00

标签: python cpu vectorization convolution

我正在使用大量小图像(36 * 36左右)和小过滤器(3 * 3到5 * 5)进行卷积。所以基于FFT的解决方案不是我想要的。也许高度优化和调整的实现(使用SSE / AVX,多线程)对我来说更好。

然而,卷积不包括在BLAS中。并且FFT库(FFTW)没有卷积功能。我试过scipy.signal.convolve2d,它比我天真的C实现更慢。

是否有针对CPU上的小内核优化的专用卷积库?如果它在大内核上自动切换到FFT会更好。 我在Python编码,但只要我可以用ctypes导入它就可以使用C / C ++库。我的GPU太老了,不能加快速度。

相关问题: Fast 2D convolution implementation? Fast way to implement 2D convolution in C Fastest 2D convolution or image filter in Python //他们都在谈论FFT而不是矢量化

0 个答案:

没有答案