关于CUDA算法对矩阵列求和的建议

时间:2014-07-11 17:42:35

标签: c++ algorithm matrix cuda reduction

我的目标很简单。我需要计算已知大小的2D矩阵的每列中所有元素的总和:

enter image description here

我已经完成了算法的第一部分,该算法在全局内存中成功构建了2D矩阵,并用浮点数填充它。由于2D矩阵是巨大的(约8亿个浮点数),我认为最好的方法是在同一个内核中实现列和,这样就不会有额外的设备 - >主机和主机 - >设备传输延迟。

如果我理解正确,最好的解决方案是返回一个大小为#row的1D向量,每个条目代表相应的列总和。

如果以上情况属实,有人可以推荐一种成功实施此方法的方法吗?提前致谢。

限制:仅运行约5000个线程。列数为~160,000,行数为〜5000。

0 个答案:

没有答案