CUDA流式传输性能

时间:2016-11-12 18:29:07

标签: cuda dot-product cuda-streams

我目前正在通过计算两个向量之间的点积来学习CUDA流。成分是一个内核函数,它接收向量 x y 并返回一个大小等于块数的向量结果,其中每个block贡献自己的减少总和。

我还有一个主机函数 dot_gpu ,它调用内核并将vector result 减少到最终的dot产品值。

同步版本就是这样:

// copy to device
copy_to_device<double>(x_h, x_d, n);
copy_to_device<double>(y_h, y_d, n);

// kernel           
double result = dot_gpu(x_d, y_d, n, blockNum, blockSize); 

虽然异步的是:

double result[numChunks];
for (int i = 0; i < numChunks; i++) {
    int offset = i * chunkSize;

    // copy to device
    copy_to_device_async<double>(x_h+offset, x_d+offset, chunkSize, stream[i]);
    copy_to_device_async<double>(y_h+offset, y_d+offset, chunkSize, stream[i]);

    // kernel
    result[i] = dot_gpu(x_d+offset, y_d+offset, chunkSize, blockNum, blockSize, stream[i]);
}
for (int i = 0; i < numChunks; i++) {
    finalResult += result[i];
    cudaStreamDestroy(stream[i]);
}

我在使用流时性能越来越差,并试图调查原因。我试图管理下载,内核调用和上传,但没有结果。

// accumulate the result of each block into a single value
double dot_gpu(const double *x, const double* y, int n, int blockNum, int blockSize, cudaStream_t stream=NULL)
{
double* result = malloc_device<double>(blockNum);
dot_gpu_kernel<<<blockNum, blockSize, blockSize * sizeof(double), stream>>>(x, y, result, n);

#if ASYNC
    double* r = malloc_host_pinned<double>(blockNum);
    copy_to_host_async<double>(result, r, blockNum, stream);

    CudaEvent copyResult;
    copyResult.record(stream);
    copyResult.wait();
#else
    double* r = malloc_host<double>(blockNum);
    copy_to_host<double>(result, r, blockNum);
#endif

double dotProduct = 0.0;
for (int i = 0; i < blockNum; i ++) {
    dotProduct += r[i];
}

cudaFree(result);
#if ASYNC
    cudaFreeHost(r);
#else
    free(r);
#endif

return dotProduct;
}

我的猜测是问题出在 dot_gpu()函数中,它们不仅调用内核。如果我正确理解以下流执行

,请告诉我
foreach stream {
    cudaMemcpyAsync( device[stream], host[stream], ... stream );
    LaunchKernel<<<...stream>>>( ... );
    cudaMemcpyAsync( host[stream], device[stream], ... stream );
}

主机执行所有三条指令而不被阻止,因为cudaMemcpyAsync和内核立即返回(但是在GPU上,它们将按顺序执行,因为它们被分配到同一个流)。所以主持人继续下一个流(即使stream1谁知道它在哪个阶段,但是谁在乎......它在GPU上完成他的工作,对吧?)并再次执行三条指令而不被阻止..等等等等。但是,我的代码在它可以处理下一个流之前阻塞主机,在 dot_gpu()函数内的某个地方。是因为我正在分配&amp;释放东西,以及将内核返回的数组减少为单个值?

1 个答案:

答案 0 :(得分:1)

假设您的客观化CUDA界面执行了函数和方法名称所建议的内容,那么后续调用dot_gpu()的工作可能不会重叠的原因有三个:

  1. 您的代码通过记录事件并等待它来明确阻止。

  2. 如果它已经没有阻止1.您的代码将block on the pinned host side allocation and deallocation,如您所怀疑。

  3. 如果您的代码已经无法阻止2.根据计算能力,后续dot_gpu()调用的工作可能仍然不会重叠。 Devices of compute capability 3.0 or lower do not reorder operations即使他们被列入不同的流。{/ p>

    即使对于计算能力为3.5及更高the number of streams whose operations can be reordered is limited by the CUDA_​DEVICE_​MAX_​CONNECTIONS environment variable的设备,默认为8,并且可以设置为32的值。