来自糟糕的OpenCL 2.0内核的段错误

时间:2015-03-10 20:27:39

标签: c opencl gpu gpu-programming

我正在尝试学习OpenCL 2.0的新功能,并且我创建了一个小内核,试图演示设备端入队。内核如下:

#pragma OPENCL EXTENSION cl_amd_printf : enable

__kernel void call_me(__global int *a);

__kernel void templateKernel(__global  unsigned int * output,
                         __global  unsigned int * input,
                         const     unsigned int multiplier);


__kernel void call_me(__global int *a)
{   
//do nothing
int id = get_global_id(0);
//a[id] = b[id];
}



__kernel void templateKernel(__global  unsigned int * output,
                         __global  unsigned int * input,
                         const     unsigned int multiplier)
{
uint tid = get_global_id(0);
int lid = get_local_id(0);
int gid = get_group_id(0);
int broadcast = 1;
int global_size = get_global_size(0);
if(gid == 0) {
    broadcast = work_group_broadcast(5, 0);
}
int collection = work_group_scan_exclusive_add(broadcast);  


void (^kernel_block)(void) = ^{call_me(input);};
//output[tid] = input[tid] * multiplier + collection + broadcast;
output[tid] = collection;
//output[tid] = global_size;
size_t size = 100;
//printf("hey %d\n", broadcast);
ndrange_t ndrange = ndrange_1D(size);
queue_t default_queue = get_default_queue();
/*
if(tid == 0){ 
    int status = enqueue_kernel(
        default_queue, 
        CLK_ENQUEUE_FLAGS_WAIT_KERNEL,
        ndrange,
        kernel_block            
        );
    }
*/
}

除了在内核中成功调用之外,这个内核应该什么都不做,这不会导致程序的分裂。它出什么问题了?删除 enqueue_kernel 调用后,将删除分段错误。我的OpenCL C编译器设置为 - cl-std = CL2.0 ,并且确认其正常工作,因为广播和收集功能正常工作。

我正在使用AMDAPPSDK 3.0 Beta。任何帮助表示赞赏。

1 个答案:

答案 0 :(得分:2)

我已经解决了自己的问题。

问题是在OpenCL 2.0中,API调用创建命令队列 clCreateCommandQueue()已被弃用。相反,AMD建议应该使用新的API调用 clCreateCommandQueueWithProperties(),以便为设备端内核调用启用设备端队列。

除了使用新的API调用之外,还必须至少创建2个命令队列。一个用于主机端,一个用于设备端。 设备队列使用新API调用附带的其他属性在主机中生成。