我正在尝试学习OpenCL 2.0的新功能,并且我创建了一个小内核,试图演示设备端入队。内核如下:
#pragma OPENCL EXTENSION cl_amd_printf : enable
__kernel void call_me(__global int *a);
__kernel void templateKernel(__global unsigned int * output,
__global unsigned int * input,
const unsigned int multiplier);
__kernel void call_me(__global int *a)
{
//do nothing
int id = get_global_id(0);
//a[id] = b[id];
}
__kernel void templateKernel(__global unsigned int * output,
__global unsigned int * input,
const unsigned int multiplier)
{
uint tid = get_global_id(0);
int lid = get_local_id(0);
int gid = get_group_id(0);
int broadcast = 1;
int global_size = get_global_size(0);
if(gid == 0) {
broadcast = work_group_broadcast(5, 0);
}
int collection = work_group_scan_exclusive_add(broadcast);
void (^kernel_block)(void) = ^{call_me(input);};
//output[tid] = input[tid] * multiplier + collection + broadcast;
output[tid] = collection;
//output[tid] = global_size;
size_t size = 100;
//printf("hey %d\n", broadcast);
ndrange_t ndrange = ndrange_1D(size);
queue_t default_queue = get_default_queue();
/*
if(tid == 0){
int status = enqueue_kernel(
default_queue,
CLK_ENQUEUE_FLAGS_WAIT_KERNEL,
ndrange,
kernel_block
);
}
*/
}
除了在内核中成功调用之外,这个内核应该什么都不做,这不会导致程序的分裂。它出什么问题了?删除 enqueue_kernel 调用后,将删除分段错误。我的OpenCL C编译器设置为 - cl-std = CL2.0 ,并且确认其正常工作,因为广播和收集功能正常工作。
我正在使用AMDAPPSDK 3.0 Beta。任何帮助表示赞赏。
答案 0 :(得分:2)
我已经解决了自己的问题。
问题是在OpenCL 2.0中,API调用创建命令队列 clCreateCommandQueue()已被弃用。相反,AMD建议应该使用新的API调用 clCreateCommandQueueWithProperties(),以便为设备端内核调用启用设备端队列。
除了使用新的API调用之外,还必须至少创建2个命令队列。一个用于主机端,一个用于设备端。 设备队列使用新API调用附带的其他属性在主机中生成。