我遇到了一个涉及许多矩阵乘法(经典和kronecker积)的问题。我读到GPU适合这项任务,因为速度是我的主要目标,我正在考虑使用Cuda和c ++。但是我必须首先学习Cuda。所以在我开始等待我的时间之前,我想我应该先问问更聪明的人。 Cuda可以加速我的计算吗?矩阵通常在20x50左右很小。有时涉及第三维,因此它变成20x50x10矩阵。我只能在一个时间步长(10-100)乘以几个矩阵。但我需要在彼此之后进行数百万次迭代(蒙特卡罗模拟)。目前我正在使用armadillo和matlab。
答案 0 :(得分:1)
如果您的矩阵更大,您会看到一些加速,现在您将面临比计算时间延迟更差的数据带宽瓶颈。
值得考虑的是看到数学技巧可以让你(根据你的计算)将多个实例组合成更大的矩阵,然后进行传输和计算。但通常这很困难,可能并不总是可行。