Question

编写以下代码的目的是将100个元素的浮点数组递增1到10倍。在输出中，我期望每个元素的100元素值为10.0f值。相反，我得到随机值。你能指出我的错误吗？

__global__  void testAdd(float *a)
{
    float temp;
    for (int i = 0; i < 100 ; i++)
    {
        a[i] = atomicAdd(&a[i], 1.0f);
    }
}
void cuTestAtomicAdd(float *a)
{
    testAdd<<<1, 10>>>(a);
}

我的目标是了解原子操作的运作方式，以便将它们应用到其他地方。

Answer 1

这不是我们如何进行atomicAdd操作。

就这样做：

atomicAdd(&a[i], 1.0f);

将更新相关变量（a[i]）。

来自原子函数的返回值通常是旧值，该值在原子更新之前的变量中。

这样做：

a[i] = atomicAdd(&a[i], 1.0f);

将更新变量a[i]，然后（非原子地）将旧值分配给变量a[i]。这几乎肯定不是你想要的。

阅读documentation：

该函数返回旧的。

以下完整代码演示了正确的用法：

#include <iostream> __global__ void testAdd(float *a) { for (int i = 0; i < 100 ; i++) { atomicAdd(&a[i], 1.0f); } } void cuTestAtomicAdd(float *a) { testAdd<<<1, 10>>>(a); } int main(){ float *d_data, *h_data; h_data=(float *) malloc(100*sizeof(float)); cudaMalloc((void **)&d_data, 100*sizeof(float)); cudaMemset(d_data, 0, 100*sizeof(float)); cuTestAtomicAdd(d_data); cudaMemcpy(h_data, d_data, 100*sizeof(float), cudaMemcpyDeviceToHost); for (int i = 0; i < 100; i++) if (h_data[i] != 10.0f) {printf("mismatch at %d, was %f, should be %f\n", i, h_data[i], 10.0f); return 1;} printf("Success\n"); return 0; }

cuda atomicAdd示例无法产生正确的输出

1 个答案: