标签: tensorflow convolution
如何将TensorFlow中的2D / 3D卷积运算实现为稀疏矩阵-密集矢量乘法?如何针对将多个滤镜应用于同一图像来优化性能?如何针对许多图像应用相同的滤镜,如何优化性能?是否有一篇论文描述了实现卷积的不同方式的性能?
我问的原因是我已经使用CUDA实现并优化了许多2D和3D(也包括4D)卷积器,我在考虑是否将它们的性能与TensorFlow进行比较。