Question

我编写了一个内核，除了在float3的每个组件中添加一个内核之外什么都不做：

__kernel void GetCellIndex(__global Particle* particles) {

   int globalID = get_global_id(0);
   particles[globalID].position.x += 1;
   particles[globalID].position.y += 1;
   particles[globalID].position.z += 1;
};

使用以下结构（在内核中）

typedef struct _Particle
{
    cl_float3 position;
}Particle;

我的问题是，当我将我的粒子数组写入GPU时，每个组件都为零。这是neccassary代码：

(Particle*) particles = new Particle[200];
for (int i = 0; i < 200; i++)
{
    particles[i].position.x = 5f;
}

cl_Particles = clCreateBuffer(context, CL_MEM_READ_WRITE, sizeof(Particle)*200, NULL, &err);
if (err != 0)
{
    std::cout << "CreateBuffer does not work!" << std::endl;
    system("Pause");
}

clEnqueueWriteBuffer(queue, cl_Particles, CL_TRUE, 0, sizeof(Particle) * 200, &particles, 0, NULL, NULL);


//init of kernel etc.



err = clSetKernelArg(kernel, 0, sizeof(Particle) * 200, &cl_Particles);
if (err != 0) {
    std::cout << "Error: setKernelArg 0 does not work!" << std::endl;
    system("Pause");
}

这是我在CPU上的结构：

typedef struct _Particle
{
    cl_float4 position;
}Particle;

有人可以帮我解决这个问题吗？（任何线索值得讨论......）

由于

Answer 1

您的代码段包含一些典型的C编程错误。首先，

(Particle*) particles = new Particle[200];

不会将新变量particle声明为指向Particle的指针。必须是：

Particle *particles = new Particle[200];

接下来，在你的

召唤中

clEnqueueWriteBuffer(queue, cl_Particles, CL_TRUE, 0, sizeof(Particle) * 200, &particles, 0, NULL, NULL);

您将指向particles指针的指针作为第6个参数（ptr）传递。但是，在这里，您必须将指针传递给包含数据的主机上的区域。因此，将&particles更改为particles：

clEnqueueWriteBuffer(queue, cl_Particles, CL_TRUE, 0, sizeof(Particle) * 200, particles, 0, NULL, NULL);

内核参数的设置也是错误的。在这里，您必须传递使用clCreateBuffer创建的OpenCL缓冲区。因此，替换

err = clSetKernelArg(kernel, 0, sizeof(Particle) * 200, &cl_Particles);

使用：

err = clSetKernelArg(kernel, 0, sizeof(cl_Particle), &cl_Particles);

当clCreateBuffer返回类型为cl_mem的值时，表达式sizeof(cl_Particle)的计算结果与sizeof(cl_mem)相同。我建议总是在变量上调用sizeof()，因此您只需要在一个地方更改数据类型：变量声明。

在我的平台上，cl_float3与cl_float4相同。这可能不适用于您的/每个平台，因此您应始终在主机代码和内核代码中使用相同的类型。此外，在您的内核代码中，您应该/必须使用float4类型而不是cl_float4。

我希望，我得到了正确的C调用，因为我实际上用这个C ++代码测试了它。此代码段包含固定的C调用作为注释：

Particle *particles = new Particle[200];
for (int i = 0; i < 200; i++)
{
    //particles[i].position.x = 5f;
    particles[i].position.s[0] = 0x5f; // due to VC++ compiler
}

//cl_mem cl_Particles = cl_createBuffer(context, CL_MEM_READ_WRITE, sizeof(Particle)*200, NULL, &err); // FIXED
cl::Buffer cl_Particles(context, CL_MEM_READ_WRITE, sizeof(Particle)*200, NULL, &err); 
checkErr(err, "Buffer::Buffer()");

//err = clEnqueueWriteBuffer(queue, cl_Particles, CL_TRUE, 0, sizeof(Particle) * 200, particles, 0, NULL, NULL); // FIXED
queue.enqueueWriteBuffer(cl_Particles, CL_TRUE, 0, sizeof(Particle) * 200, particles, NULL, NULL);
checkErr(err, "ComamndQueue::enqueueWriteBuffer()");

//init of kernel
cl::Kernel kernel(program, "GetCellIndex", &err);
checkErr(err, "Kernel::Kernel()");

//err = clSetKernelArg(kernel, 0, sizeof(cl_Particle), &cl_Particles); // FIXED
err = kernel.setArg(0, sizeof(cl_Particles), &cl_Particles);
checkErr(err, "Kernel::setArg()");

OpenCL - 写入缓冲区为零？

1 个答案: