工作维度= 2的clEnqueueNDRangeKernel

时间:2015-07-13 08:39:44

标签: c linux parallel-processing opencl gpgpu

我正在编写一个代码来添加两个尺寸为1024 * 1024的矩阵。 所以我的工作维度必须是2,全局工作大小必须是1024 * 1024。我想将每个工作组的大小设置为64 * 64。我如何实现这一目标?

所以我的代码应该是这样的: -

clEnqueueNDRangeKernel(cl_command_queue command_queue,cl_kernel kernel,cl_uint work_dim,const size_t *global_work_offset,
                       const size_t *global_work_size,const size_t *local_work_size,
                       cl_uint num_events_in_wait_list,const cl_event *event_wait_list,cl_event *event)

其中local_work_size=64*64global_work_size=1024*1024work_dim=2。 如何在内核代码中获取单个元素?

这是我的内核代码: -

__kernel void hello(__global int ** A,__global int ** B,__global int ** C)
{
      int x = get_global_id(0);
     int y = get_global_id(1);
    C[x][y]=A[x][y]+B[x][y];
}

1 个答案:

答案 0 :(得分:1)

您的内核启动如下所示:

size_t global[2] = {1024, 1024};
size_t local[2]  = {64, 64};
clEnqueueNDRangeKernel(queue, kernel, 2, NULL, global, local, 0, NULL, NULL);

并且你的内核将检索它的索引:

kernel void foo(...)
{
  int x = get_global_id(0);
  int y = get_global_id(1);
  ...
}

顺便说一句,我遇到的大多数OpenCL设备的最大工作组大小为1024,这意味着它们不支持工作组大小为64x64。

由于您只能在OpenCL中使用1D缓冲区,因此需要手动计算线性数组索引。以下是简单矩阵加法内核的外观:

__kernel void hello(__global int *A,__global int *B,__global int *C, int width)
{
  int x = get_global_id(0);
  int y = get_global_id(1);
  int index = x + y*width;
  C[index] = A[index] + B[index];
}