我正在学习cuda。
是否可以加速像纹理内存矩阵乘法一样简单的东西?空间局部性是一个很好的属性,作为我的平铺的补充,但使用纹理内存的开销可能超过它吗?
我似乎无法找到使用纹理内存的矩阵乘法的任何实现。
答案 0 :(得分:2)
矩阵乘法可以通过多种方式实现。
与仅使用全局内存的矩阵乘法的简单实现相比,是的,可以使用纹理内存来加速它。
与使用共享内存的更好编写的矩阵乘法版本相比,纹理内存不太可能带来很多或任何好处。
如果您希望CUDA矩阵的最佳性能相乘,则应使用CUBLAS。不要编写自己的矩阵乘法代码。