标签: opencl gpu-programming
我正在寻找通过OpenCL上的本地内存使用来优化带宽,并且在性能方面,采用32或16的块大小似乎会更好。但是,我有一个至关重要的问题:如果我们想要矩阵大小不能被32/16(例如每个工作组的局部大小)整除的矩阵乘法,你知道内核函数将如何进行吗?在计算阶段?
提前致谢