Question

我正在尝试在MATLAB上运行LU Decomposition，以便它将使用GPU。根据NVidia / MATLAB文档，LU应该得到CUDA的支持（例如参见http://www.nvidia.com/content/GTC-2010/pdfs/2267_GTC2010.pdf）。

现在，我已经比较了CPU和GPU之间的速度，虽然GPU对于矩阵乘法和FFT确实更快，但它似乎给LU分解提供了几乎相同的结果，这对我来说非常重要。

我已尝试过不同尺寸，但它几乎保持不变。

例如，

在GPU上：

A=gpuArray(randn(1000));
tic; [l,u,p]=lu(A); toc
Elapsed time is 0.056832 seconds.

在CPU上：

B=randn(1000);
tic; [l,u,p]=lu(B); toc
Elapsed time is 0.031463 seconds.

CPU更快。我的CPU是i7-2630QM，我的GPU是GT-550M（笔记本电脑）。我也在一台拥有GTX-660的更强大的计算机上尝试过它，结果是一样的。

我的MATLAB版本是2012b

Answer 1

在Tesla C2070上使用MATLAB R2013a，我看到了：

A = gpuArray.randn(1000);
tic; [l,u,p]=lu(A); toc
Elapsed time is 0.016663 seconds.

比我的CPU快2倍。随着矩阵尺寸的进一步增加，加速度增加，在我的机器上达到GPU的速度大约快5倍 - 这对于高端（虽然稍微过时）的GPU而言比典型的6核CPU更常见。