我正在编写一个代码来添加两个尺寸为1024 * 1024的矩阵。 所以我的工作维度必须是2,全局工作大小必须是1024 * 1024。我想将每个工作组的大小设置为64 * 64。我如何实现这一目标?
所以我的代码应该是这样的: -
clEnqueueNDRangeKernel(cl_command_queue command_queue,cl_kernel kernel,cl_uint work_dim,const size_t *global_work_offset,
const size_t *global_work_size,const size_t *local_work_size,
cl_uint num_events_in_wait_list,const cl_event *event_wait_list,cl_event *event)
其中local_work_size=64*64
,global_work_size=1024*1024
,work_dim=2
。
如何在内核代码中获取单个元素?
这是我的内核代码: -
__kernel void hello(__global int ** A,__global int ** B,__global int ** C)
{
int x = get_global_id(0);
int y = get_global_id(1);
C[x][y]=A[x][y]+B[x][y];
}
答案 0 :(得分:1)
您的内核启动如下所示:
size_t global[2] = {1024, 1024};
size_t local[2] = {64, 64};
clEnqueueNDRangeKernel(queue, kernel, 2, NULL, global, local, 0, NULL, NULL);
并且你的内核将检索它的索引:
kernel void foo(...)
{
int x = get_global_id(0);
int y = get_global_id(1);
...
}
顺便说一句,我遇到的大多数OpenCL设备的最大工作组大小为1024,这意味着它们不支持工作组大小为64x64。
由于您只能在OpenCL中使用1D缓冲区,因此需要手动计算线性数组索引。以下是简单矩阵加法内核的外观:
__kernel void hello(__global int *A,__global int *B,__global int *C, int width)
{
int x = get_global_id(0);
int y = get_global_id(1);
int index = x + y*width;
C[index] = A[index] + B[index];
}