是否有可能加快纹理内存的矩阵乘法?

时间:2015-04-29 08:48:28

标签: c++ matrix cuda multiplication

我正在学习cuda。

是否可以加速像纹理内存矩阵乘法一样简单的东西?空间局部性是一个很好的属性,作为我的平铺的补充,但使用纹理内存的开销可能超过它吗?

我似乎无法找到使用纹理内存的矩阵乘法的任何实现。

1 个答案:

答案 0 :(得分:2)

矩阵乘法可以通过多种方式实现。

与仅使用全局内存的矩阵乘法的简单实现相比,是的,可以使用纹理内存来加速它。

与使用共享内存的更好编写的矩阵乘法版本相比,纹理内存不太可能带来很多或任何好处。

如果您希望CUDA矩阵的最佳性能相乘,则应使用CUBLAS。不要编写自己的矩阵乘法代码。