OpenCL程序在CPU上运行,但在GPU上运行时输出空图像

时间:2013-09-13 01:19:18

标签: c++ opencl

我有以下OpenCL内核,高斯模糊

__constant sampler_t sampler =
        CLK_NORMALIZED_COORDS_FALSE |
        CLK_ADDRESS_CLAMP_TO_EDGE |
        CLK_FILTER_NEAREST;

__constant float gaussian_kernel[3][3] = {
    {0.0625f, 0.125f, 0.0625f},
    {0.125f, 0.25f, 0.125f},
    {0.0625f, 0.125f, 0.0625f} };

void kernel gaussian_blur(
    read_only image2d_t input_image,
    write_only image2d_t output_image) {

    int x = get_global_id(0);
    int y = get_global_id(1);

    int2 coords[9] = {
        { x - 1, y - 1 }, { x, y - 1 }, { x + 1, y - 1 },
        { x - 1, y     }, { x, y     }, { x + 1, y     },
        { x - 1, y + 1 }, { x, y + 1 }, { x + 1, y + 1 }
    };

    float4 pixel_value = { 0.f, 0.f, 0.f, 0.f };

    for(int i = 0; i < 3; ++i) {
        for(int j = 0; j < 3; ++j) {
            int index = i * 3 + j;
            float4 blurred =
                as_float4(read_imageui(input_image, sampler, coords[index]));

            pixel_value.x += (blurred.x * gaussian_kernel[i][j]);
            pixel_value.y += (blurred.y * gaussian_kernel[i][j]);
            pixel_value.z += (blurred.z * gaussian_kernel[i][j]);
            pixel_value.w += (blurred.w * gaussian_kernel[i][j]);
        }
    }

    uint4 final_value = as_uint4(pixel_value);

    write_imageui(output_image, coords[4], final_value);
}

当我指定要用作CPU的设备时,模糊效果正常。这是设备选择代码

std::vector<cl::Platform> all_platforms;
cl::Platform::get(&all_platforms);

if(all_platforms.size() == 0) {
    std::cerr << "No platforms available" <<std::endl;
    exit(-1);
}

cl::Platform default_platform = all_platforms[0];

std::vector<cl::Device> all_devices;
default_platform.getDevices(CL_DEVICE_TYPE_ALL, &all_devices);

if(all_devices.size() == 0) {
    std::cerr << "No device found" << std::endl;
    exit(-1);
}

cl::Device default_device = all_devices[1]; //Changing this index to 0 uses my graphics card

现在,如果default_device设置为GPU,则程序仅输出空图像。相关的图像设置代码是(请注意inputMagick::Imagein_pixels堆分配的unsigned short数组:

cl::ImageFormat format(CL_RGBA, CL_UNSIGNED_INT16);

cl::Image2D input_image_buffer;
input.write(0, 0, 
    input.baseColumns(), input.baseRows(), "RGBA", Magick::ShortPixel, in_pixels);

input_image_buffer = cl::Image2D(
    context, 
    CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR,
    format,
    input.baseColumns(),
    input.baseRows(),
    0,
    in_pixels,
    &cl_error);

cl::Image2D output_image_buffer;
output_image_buffer = cl::Image2D(
    context, 
    CL_MEM_WRITE_ONLY | CL_MEM_USE_HOST_PTR,
    format, 
    input.baseColumns(),
    input.baseRows(),
    0,
    out_pixels,
    &cl_error);

内核设置/图像输出代码(gaussian_program当然没有错误构建)

cl::Kernel gaussian_kernel(gaussian_program, "gaussian_blur");

cl::CommandQueue queue(context, default_device, 0, &cl_error);

cl::size_t<3> origin;
cl::size_t<3> size;
origin[0] = 0;
origin[1] = 0;
origin[2] = 0;

size[0] = input.baseColumns();
size[1] = input.baseRows();
size[2] = 1;

cl_error = gaussian_kernel.setArg(0, input_image_buffer);

cl_error = gaussian_kernel.setArg(1, output_image_buffer);

cl::NDRange range(input.baseColumns(), input.baseRows());

cl_error = queue.enqueueNDRangeKernel(
    gaussian_kernel, 
    cl::NullRange, 
    range,
    cl::NullRange);

queue.finish();

try{
    output.read(
        input.baseColumns(), 
        input.baseRows(), 
        "RGBA", Magick::ShortPixel, out_pixels);
}
catch(Magick::Exception& ex) {
    std::cerr << "A Magick error occured while writing the pixel cache: " <<
        std::endl << ex.what() << std::endl;
    return false;
}

现在,我为此示例删除了大量错误检查,但原始代码在每次OpenCL调用后检查cl_error,并且从不发出错误信号。代码在CPU上按预期执行,但代码在GPU上执行时图像为空。

我首先怀疑存在同步问题(即使在CPU上也需要进行queue.finish()调用以达到这个目的,但是尝试使用cl::finish()queue.finish()来调试代码序列化执行没有任何帮助。

有什么我明显做错了吗?这个OpenCL内核是否有可能在GPU上出现故障而在CPU上出现故障?

为了记录,我使用AMD APP SDK OpenCL实现和Radeon HD 7970在Ubuntu 13.04上。

2 个答案:

答案 0 :(得分:6)

那么,你从哪里读取GPU的图像?

您使用标记CL_MEM_COPY_HOST_PTR

分配输入图像
  

仅当host_ptr不为NULL时,此标志才有效。如果指定,则表示应用程序希望OpenCL实现为内存对象分配内存,并从host_ptr引用的内存中复制数据。

和您的输出图片CL_MEM_USE_HOST_PTR

  

仅当host_ptr不为NULL时,此标志才有效。如果指定,它   表示应用程序希望使用OpenCL实现   host_ptr引用的内存作为内存的存储位   对象

     

允许OpenCL实现缓存缓冲区内容   在设备内存中由host_ptr指向。可以使用此缓存副本   当内核在设备上执行时。

     

对多个缓冲区对象进行操作的OpenCL命令的结果   使用相同的host_ptr或重叠的主机区域创建的   被认为是未定义的。

您的分配没有任何问题,但是您从未告诉OpenCL实现将内存写入已使用的设备并将该内存读回主机主内存。这可能适用于CPU,因为内存已经在其设备内存(主内存)中,但GPU无法使用。

OpenCL c ++绑定提供cl::enqueueWriteImage(/*params*/);cl::enqueueReadImage(/*params*/);来向设备写入和从设备读取图像缓冲区。

答案 1 :(得分:2)

如我的评论中所述, as_float4 不是转化。它需要 uint 的32位,并将它们解释为 float 位。在您的情况下,您正在读取16位,因此浮点值将非常小(指数将为0)。请改用 convert_float4

关于不回读数据的答案也是正确的。您需要调用 clEnqueueReadBuffer clEnqueueMapBuffer 以确保从设备读回数据。