Question

我正在使用MATLAB R2017a。我正在运行一个简单的代码来计算从第一个点到第一个点的累计和。

我的CUDA内核代码是：

__global__ void summ(const double *A, double *B, int N){
    for (int i=threadIdx.x; i<N; i++){
B[i+1] = B[i] + A[i];}}

我的MATLAB代码是

k=parallel.gpu.CUDAKernel('summ.ptx','summ.cu');

n=10^7;
A=rand(n,1);
ans=zeros(n,1);
A1=gpuArray(A);
ans2=gpuArray(ans);

k.ThreadBlockSize = [1024,1,1];
k.GridSize = [3,1];
G = feval(k,A1,ans2,n);
G1 = gather(G);
GPU_time = toc

我想知道为什么当我增加网格大小（k，.GridSize）时GPU时间会增加。即时获取10 ^ 7数据，

k.GridSize=[1,1] the time is 8.0748s
k.GridSize=[2,1] the time is 8.0792s
k.GridSize=[3,1] the time is 8.0928s

据我了解，对于10 ^ 7的数据量，系统将需要10 ^ 7/1024〜9767块，因此网格大小应为[9767,1]。

GPU设备为

Name: 'Tesla K20c'
                 Index: 1
     ComputeCapability: '3.5'
        SupportsDouble: 1
         DriverVersion: 9.1000
        ToolkitVersion: 8
    MaxThreadsPerBlock: 1024
      MaxShmemPerBlock: 49152
    MaxThreadBlockSize: [1024 1024 64]
           MaxGridSize: [2.1475e+09 65535 65535]
             SIMDWidth: 32
           TotalMemory: 5.2983e+09
       AvailableMemory: 4.9132e+09
   MultiprocessorCount: 13
          ClockRateKHz: 705500
           ComputeMode: 'Default'
  GPUOverlapsTransfers: 1
KernelExecutionTimeout: 0
      CanMapHostMemory: 1
       DeviceSupported: 1
        DeviceSelected: 1

感谢您的回复。

Answer 1

与整体效果相比，您似乎只担心很少的时间。您应该问的真正问题是：解决这个问题所需的时间是否有意义？答案并非完全没有。

这是经过修改的代码，应该可以更快地运行

n=10^7;
dev = gpuDevice;

A = randn(n,1,'gpuArray');
B = randn(n,1,'gpuArray');
tic
G = A+cumsum(B);
wait(dev)
toc

在我的1060上，运行时间为0.03秒。为了获得更快的速度，您可以使用单精度

无论如何，这0.02秒很容易归因于GPU负载的微小变化。这种情况比与网格大小有关的可能性要大得多。

网格大小增加时，MATLAB中的CUDA GPU时间增加

1 个答案: