Question

我有一个问题让我对OpenCL感到愤怒。我已经将问题缩小到一个特定的代码片段，它给了我这个问题，我在下面引用它。问题是，当我用OpenCL和串行执行此代码并比较结果时，它们不一样。这里唯一的内核参数是单元格变量。

在测试期间，我尝试使用之前计算的特定值（例如local_density）设置最后一个循环中的值。然后我得到的结果是正确的。根据我的理解，问题在于u和d_equ数组在循环中用于计算时。我必须提到那些数组是double类型，并且我已经添加了所需的pragma来启用双精度。

是否需要在此代码中进行同步或类似操作，因为它适用于OpenCL？

    local_density = 0.0;
    for(kk = 0; kk < 9; kk++)
    {
      local_density += tmp_cells[pos].speeds[kk];
    }

    u_x = (tmp_cells[pos].speeds[1] + tmp_cells[pos].speeds[5] +
           tmp_cells[pos].speeds[8] - ( tmp_cells[pos].speeds[3] +
            tmp_cells[pos].speeds[6] + tmp_cells[pos].speeds[7]))
          / local_density;
    u_y = (tmp_cells[pos].speeds[2] + tmp_cells[pos].speeds[5] +
           tmp_cells[pos].speeds[6] - ( tmp_cells[pos].speeds[4] +
            tmp_cells[pos].speeds[7] + tmp_cells[pos].speeds[8]))
          / local_density;
    u_sq = u_x * u_x + u_y * u_y;
    u[1] =   u_x      ;
    u[2] =         u_y;
    u[3] = - u_x      ;
    u[4] =       - u_y;
    u[5] =   u_x + u_y;
    u[6] = - u_x + u_y;
    u[7] = - u_x - u_y;
    u[8] =   u_x - u_y;
    t1 = 2.0 * c_sq;
    d_equ[0] = w0 * local_density * (1.0 - u_sq / t1);
    t3 = w1 * local_density;
    t2 = t1 * c_sq;
    t1 = u_sq / t1;
    d_equ[1] = t3 * (1.0 + u[1] / c_sq + (u[1] * u[1]) / t2 - t1);
    d_equ[2] = t3 * (1.0 + u[2] / c_sq + (u[2] * u[2]) / t2 - t1);
    d_equ[3] = t3 * (1.0 + u[3] / c_sq + (u[3] * u[3]) / t2 - t1);
    d_equ[4] = t3 * (1.0 + u[4] / c_sq + (u[4] * u[4]) / t2 - t1);
    t3 = w2 * local_density;
    d_equ[5] = t3 * (1.0 + u[5] / c_sq + (u[5] * u[5]) / t2 - t1);
    d_equ[6] = t3 * (1.0 + u[6] / c_sq + (u[6] * u[6]) / t2 - t1);
    d_equ[7] = t3 * (1.0 + u[7] / c_sq + (u[7] * u[7]) / t2 - t1);
    d_equ[8] = t3 * (1.0 + u[8] / c_sq + (u[8] * u[8]) / t2 - t1);

    for(kk = 0; kk < 9; kk++)
    {
      cells[pos].speeds[kk] = (tmp_cells[pos].speeds[kk] + params->omega *
           (d_equ[kk] - tmp_cells[pos].speeds[kk]));
    }

如果有人想知道

类型的细胞类型

typedef struct {
  double speeds[NSPEEDS];
} t_speed;

修改

经过几次测试后问题出现在我试图设置每个单元格的值[pos] .speeds [kk]。如果我只更改其中一个速度的值，那么我得到的结果会更好（更正确的值）。如果我尝试改变多个，那么结果真的很糟糕。

所以问题是，为什么我不能在没有问题的情况下更改结构中的多个值？

修改

尝试在几个循环中执行整个代码后，经过一定的步骤后，上述代码会导致分段错误。导致问题的原因当然是更新。

for(kk = 0; kk < 9; kk++)
{
  cells[pos].speeds[kk] = (tmp_cells[pos].speeds[kk] + params->omega *
       (d_equ[kk] - tmp_cells[pos].speeds[kk]));
}

如果我对此进行评论，那么我就不会出现分段错误。

修改

当我将cpu作为OpenCL的执行设备时，代码执行正常没有问题。为什么会这样？

OpenCL给出了串行执行的不同值

修改

修改

修改

0 个答案: