应用错误收集

OpenCL

时间：2018-01-24 22:55:18

标签： opencl gpu-programming

我正在寻找通过OpenCL上的本地内存使用来优化带宽，并且在性能方面，采用32或16的块大小似乎会更好。但是，我有一个至关重要的问题：如果我们想要矩阵大小不能被32/16（例如每个工作组的局部大小）整除的矩阵乘法，你知道内核函数将如何进行吗？在计算阶段？

提前致谢

0 个答案:

没有答案