Question

我读到了OpenCL中的全局内存优化。在其中一个幻灯片中，一个非常简单的内核（下面）用于演示内存合并的重要性。

__kernel void measure(__global float* idata, __global float* odata, int   offset) {

    int xid = get_global_id(0) + offset;
    odata[xid] = idata[xid];

}

请参阅下面的代码，该代码测量内核的运行时间

    ret = clFinish(command_queue);
    size_t local_item_size = MAX_THREADS;

    size_t global_item_size = INPUTSIZE;
    struct timeval t0,t1;
    gettimeofday(&t0, 0 );

    //ret = clFinish(command_queue);
    ret = clEnqueueNDRangeKernel(command_queue, measure, 1, NULL,
                                            &global_item_size, &local_item_size, 0, NULL, NULL);




    ret = clFlush(command_queue);
    ret = clFinish(command_queue);

    gettimeofday(&t1,0);
    double elapsed = (t1.tv_sec-t0.tv_sec)*1000000 + (t1.tv_usec-t0.tv_usec);

    printf("time taken = %lf microseconds\n", elapsed);

我传输大约0.5 GB的数据：

#define INPUTSIZE 1024 * 1024 * 128
int main (int argc, char *argv[])
{

   int offset = atoi(argv[1]);
   float* input = (float*) malloc(sizeof(float) * INPUTSIZE);

现在，结果有点随机。当offset = 0时，我得到的时间低至21个usecs。当offset = 1时，我得到的时间介于53个usecs到24400个usecs之间。

有人可以告诉我发生了什么事。我认为offset = 0将是最快的，因为所有线程将访问连续的位置，因此将发生最小数量的内存事务。

Answer 1

带宽是衡量数据传输速度的指标，在这些情况下通常以字节/秒为单位进行测量（通常以GB / s表示GPU内存带宽）。

要计算计算内核的带宽，您只需要知道内核从/向内存读取/写入多少数据，然后在内核执行时将其除以。

您的示例内核让每个工作项（或CUDA线程）读取一个浮点数，并编写一个浮点数。如果启动此内核以复制2^10浮点数，那么您将读取2^10 * sizeof(float)个字节，并写入相同的数量（总共8MB）。如果此内核需要1ms才能执行，那么您已获得8MB / 0.001s = 8GB/s的带宽。

显示内核计时方法的新代码段表明您只计时内核入队，而不是运行内核实际执行的时间。这就是为什么你的内核时序非常低（0.5GB / 0.007ms ~= 71TB/s！）。您应该添加对clFinish()的调用以获得正确的时间。我通常也会在多次运行中进行计时，以便让设备进行预热，这通常可以提供更一致的时间：

// Warm-up run (not timed)
clEnqueueNDRangeKernel(command_queue, ...);
clFinish(command_queue);

// start timing
start = ...

for (int i = 0; i < NUM_RUNS; i++)
{
  clEnqueueNDRangeKernel(command_queue, ...);
}
clFinish(command_queue);

// stop timing
end = ...

// Compute time taken, bandwidth etc
average_time = (end-start)/NUM_RUNS;
...

评论提问：

为什么offset = 0的性能优于offset = 1,4或6？

在NVIDIA GPU上，工作项被分组为大小为32的“warp”，它们以锁步方式执行（其他设备具有类似的方法，只是具有不同的大小）。存储器事务与高速缓存行大小的倍数对齐（例如，64字节，128字节等）。考虑当warp中的每个工作项尝试读取单个4字节值（假设它们是连续的，根据您的示例），缓存行大小为64字节时会发生什么。

此warp总共读取128个字节的数据。如果此128字节块的开始与64字节边界对齐（即，如果offset=0），则可以在两个64字节事务中进行服务。但是，如果此块不与64字节边界（offset=1,4,6,etc）对齐，那么这将需要三个内存事务来获取所有数据。这就是你的表现差异所在。

如果您将偏移量设置为缓存行大小的倍数（例如64），那么您的性能可能会相当于offset=0。

测量OpenCL内核的内存吞吐量

1 个答案: