我需要计算矩阵的累积和,其中新累积和矩阵的每个索引(i,j)的值是由子矩阵(0,0)形成的所有元素的总和。 (i,j)原始的。有没有办法使用CUDA的多个线程来并行化它?
答案 0 :(得分:2)
累积总和是扫描,CUDA SDK包含“扫描”示例。检查ScanLargeArray示例。这是一个非常高度精炼的算法,甚至还有一篇论文http://developer.download.nvidia.com/compute/cuda/1_1/Website/projects/scan/doc/scan.pdf描述了优化算法所采取的所有步骤。