OpenCL

时间:2018-01-24 22:55:18

标签: opencl gpu-programming

我正在寻找通过OpenCL上的本地内存使用来优化带宽,并且在性能方面,采用32或16的块大小似乎会更好。但是,我有一个至关重要的问题:如果我们想要矩阵大小不能被32/16(例如每个工作组的局部大小)整除的矩阵乘法,你知道内核函数将如何进行吗?在计算阶段?

提前致谢

0 个答案:

没有答案