我的目标很简单。我需要计算已知大小的2D矩阵的每列中所有元素的总和:
我已经完成了算法的第一部分,该算法在全局内存中成功构建了2D矩阵,并用浮点数填充它。由于2D矩阵是巨大的(约8亿个浮点数),我认为最好的方法是在同一个内核中实现列和,这样就不会有额外的设备 - >主机和主机 - >设备传输延迟。
如果我理解正确,最好的解决方案是返回一个大小为#row的1D向量,每个条目代表相应的列总和。
如果以上情况属实,有人可以推荐一种成功实施此方法的方法吗?提前致谢。
限制:仅运行约5000个线程。列数为~160,000,行数为〜5000。