我有以下OpenCL内核,高斯模糊
__constant sampler_t sampler =
CLK_NORMALIZED_COORDS_FALSE |
CLK_ADDRESS_CLAMP_TO_EDGE |
CLK_FILTER_NEAREST;
__constant float gaussian_kernel[3][3] = {
{0.0625f, 0.125f, 0.0625f},
{0.125f, 0.25f, 0.125f},
{0.0625f, 0.125f, 0.0625f} };
void kernel gaussian_blur(
read_only image2d_t input_image,
write_only image2d_t output_image) {
int x = get_global_id(0);
int y = get_global_id(1);
int2 coords[9] = {
{ x - 1, y - 1 }, { x, y - 1 }, { x + 1, y - 1 },
{ x - 1, y }, { x, y }, { x + 1, y },
{ x - 1, y + 1 }, { x, y + 1 }, { x + 1, y + 1 }
};
float4 pixel_value = { 0.f, 0.f, 0.f, 0.f };
for(int i = 0; i < 3; ++i) {
for(int j = 0; j < 3; ++j) {
int index = i * 3 + j;
float4 blurred =
as_float4(read_imageui(input_image, sampler, coords[index]));
pixel_value.x += (blurred.x * gaussian_kernel[i][j]);
pixel_value.y += (blurred.y * gaussian_kernel[i][j]);
pixel_value.z += (blurred.z * gaussian_kernel[i][j]);
pixel_value.w += (blurred.w * gaussian_kernel[i][j]);
}
}
uint4 final_value = as_uint4(pixel_value);
write_imageui(output_image, coords[4], final_value);
}
当我指定要用作CPU的设备时,模糊效果正常。这是设备选择代码
std::vector<cl::Platform> all_platforms;
cl::Platform::get(&all_platforms);
if(all_platforms.size() == 0) {
std::cerr << "No platforms available" <<std::endl;
exit(-1);
}
cl::Platform default_platform = all_platforms[0];
std::vector<cl::Device> all_devices;
default_platform.getDevices(CL_DEVICE_TYPE_ALL, &all_devices);
if(all_devices.size() == 0) {
std::cerr << "No device found" << std::endl;
exit(-1);
}
cl::Device default_device = all_devices[1]; //Changing this index to 0 uses my graphics card
现在,如果default_device设置为GPU,则程序仅输出空图像。相关的图像设置代码是(请注意input
是Magick::Image
和in_pixels
堆分配的unsigned short
数组:
cl::ImageFormat format(CL_RGBA, CL_UNSIGNED_INT16);
cl::Image2D input_image_buffer;
input.write(0, 0,
input.baseColumns(), input.baseRows(), "RGBA", Magick::ShortPixel, in_pixels);
input_image_buffer = cl::Image2D(
context,
CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR,
format,
input.baseColumns(),
input.baseRows(),
0,
in_pixels,
&cl_error);
cl::Image2D output_image_buffer;
output_image_buffer = cl::Image2D(
context,
CL_MEM_WRITE_ONLY | CL_MEM_USE_HOST_PTR,
format,
input.baseColumns(),
input.baseRows(),
0,
out_pixels,
&cl_error);
内核设置/图像输出代码(gaussian_program
当然没有错误构建)
cl::Kernel gaussian_kernel(gaussian_program, "gaussian_blur");
cl::CommandQueue queue(context, default_device, 0, &cl_error);
cl::size_t<3> origin;
cl::size_t<3> size;
origin[0] = 0;
origin[1] = 0;
origin[2] = 0;
size[0] = input.baseColumns();
size[1] = input.baseRows();
size[2] = 1;
cl_error = gaussian_kernel.setArg(0, input_image_buffer);
cl_error = gaussian_kernel.setArg(1, output_image_buffer);
cl::NDRange range(input.baseColumns(), input.baseRows());
cl_error = queue.enqueueNDRangeKernel(
gaussian_kernel,
cl::NullRange,
range,
cl::NullRange);
queue.finish();
try{
output.read(
input.baseColumns(),
input.baseRows(),
"RGBA", Magick::ShortPixel, out_pixels);
}
catch(Magick::Exception& ex) {
std::cerr << "A Magick error occured while writing the pixel cache: " <<
std::endl << ex.what() << std::endl;
return false;
}
现在,我为此示例删除了大量错误检查,但原始代码在每次OpenCL调用后检查cl_error,并且从不发出错误信号。代码在CPU上按预期执行,但代码在GPU上执行时图像为空。
我首先怀疑存在同步问题(即使在CPU上也需要进行queue.finish()
调用以达到这个目的,但是尝试使用cl::finish()
或queue.finish()
来调试代码序列化执行没有任何帮助。
有什么我明显做错了吗?这个OpenCL内核是否有可能在GPU上出现故障而在CPU上出现故障?
为了记录,我使用AMD APP SDK OpenCL实现和Radeon HD 7970在Ubuntu 13.04上。
答案 0 :(得分:6)
那么,你从哪里读取GPU的图像?
您使用标记CL_MEM_COPY_HOST_PTR
仅当host_ptr不为NULL时,此标志才有效。如果指定,则表示应用程序希望OpenCL实现为内存对象分配内存,并从host_ptr引用的内存中复制数据。
和您的输出图片CL_MEM_USE_HOST_PTR
仅当host_ptr不为NULL时,此标志才有效。如果指定,它 表示应用程序希望使用OpenCL实现 host_ptr引用的内存作为内存的存储位 对象
允许OpenCL实现缓存缓冲区内容 在设备内存中由host_ptr指向。可以使用此缓存副本 当内核在设备上执行时。
对多个缓冲区对象进行操作的OpenCL命令的结果 使用相同的host_ptr或重叠的主机区域创建的 被认为是未定义的。
您的分配没有任何问题,但是您从未告诉OpenCL实现将内存写入已使用的设备并将该内存读回主机主内存。这可能适用于CPU,因为内存已经在其设备内存(主内存)中,但GPU无法使用。
OpenCL c ++绑定提供cl::enqueueWriteImage(/*params*/);
和cl::enqueueReadImage(/*params*/);
来向设备写入和从设备读取图像缓冲区。
答案 1 :(得分:2)
如我的评论中所述, as_float4 不是转化。它需要 uint 的32位,并将它们解释为 float 位。在您的情况下,您正在读取16位,因此浮点值将非常小(指数将为0)。请改用 convert_float4 。
关于不回读数据的答案也是正确的。您需要调用 clEnqueueReadBuffer 或 clEnqueueMapBuffer 以确保从设备读回数据。