Question

据我所知，如果在warp中的相同内存地址位置执行原子操作，则warp的性能可能会慢32倍。

但是，如果warp中的线程的原子操作在32个不同的内存位置怎么办？是否有任何性能损失？或者它会像正常操作一样快？

我的用例是我有32个不同的位置，warp中的每个线程都需要这些位置中的一个，但哪个位置是数据相关的。因此，每个线程都可以使用atomicCAS扫描所需的位置是否为空。如果它不为空，则扫描下一个位置。

如果我很幸运，32个线程可以将atomicCAS转移到32个不同的内存位置，这种情况是否有任何性能损失？

我假设使用了Kepler架构

Answer 1

在下面的代码中，我将一个常量值添加到数组的元素（dev_input）。我正在比较两个内核，一个使用atomicAdd，另一个使用常规添加。这是一个极端的示例，其中atomicAdd在完全不同的地址上运行，因此不需要对操作进行序列化。

#include <stdio.h>

#define BLOCK_SIZE 1024

int iDivUp(int a, int b) { return ((a % b) != 0) ? (a / b + 1) : (a / b); }

#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, char *file, int line, bool abort=true)
{
    if (code != cudaSuccess)  
    {
        fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
        if (abort) exit(code);
    }
}

__global__ void regular_addition(float *dev_input, float val, int N) {

    int i = blockIdx.x * blockDim.x + threadIdx.x;  

    if (i < N) dev_input[i] = dev_input[i] + val;
}

__global__ void atomic_operations(float *dev_input, float val, int N) {

    int i = blockIdx.x * blockDim.x + threadIdx.x;  

    if (i < N) atomicAdd(&dev_input[i],val);
}

int main(){

    int N = 8192*32;

    float* output = (float*)malloc(N*sizeof(float));
    float* dev_input; gpuErrchk(cudaMalloc((void**)&dev_input, N*sizeof(float)));

    gpuErrchk(cudaMemset(dev_input, 0, N*sizeof(float)));

    int NumBlocks = iDivUp(N,BLOCK_SIZE);

    float time, timing1 = 0.f, timing2 = 0.f;
    cudaEvent_t start, stop;

    int niter = 32;

    for (int i=0; i<niter; i++) {

        gpuErrchk(cudaEventCreate(&start));
        gpuErrchk(cudaEventCreate(&stop));
        gpuErrchk(cudaEventRecord(start,0));

        atomic_operations<<<NumBlocks,BLOCK_SIZE>>>(dev_input,3,N);
        gpuErrchk(cudaPeekAtLastError());
        gpuErrchk(cudaDeviceSynchronize());

        gpuErrchk(cudaEventRecord(stop,0));
        gpuErrchk(cudaEventSynchronize(stop));
        gpuErrchk(cudaEventElapsedTime(&time, start, stop));

        timing1 = timing1 + time;

    }

    printf("Time for atomic operations:  %3.5f ms \n", timing1/(float)niter);

    for (int i=0; i<niter; i++) {

        gpuErrchk(cudaEventCreate(&start));
        gpuErrchk(cudaEventCreate(&stop));
        gpuErrchk(cudaEventRecord(start,0));

        regular_addition<<<NumBlocks,BLOCK_SIZE>>>(dev_input,3,N);
        gpuErrchk(cudaPeekAtLastError());
        gpuErrchk(cudaDeviceSynchronize());

        gpuErrchk(cudaEventRecord(stop,0));
        gpuErrchk(cudaEventSynchronize(stop));
        gpuErrchk(cudaEventElapsedTime(&time, start, stop));

        timing2 = timing2 + time;

    }

    printf("Time for regular addition:  %3.5f ms \n", timing2/(float)niter);

}

在我的NVIDIA GeForce GT540M，CUDA 5.5，Windows 7上测试此代码，我获得了两个内核大致相同的结果，即大约0.7ms。

现在更改指令

if (i < N) atomicAdd(&dev_input[i],val);

到

if (i < N) atomicAdd(&dev_input[i%32],val);

更接近您感兴趣的情况，即每个atomicAdd在warp中的不同地址上运行。我得到的结果是没有观察到性能损失。

最后，将上述说明改为

if (i < N) atomicAdd(&dev_input[0],val);

这是atomicAdd始终在同一地址上运行的另一个极端。在这种情况下，执行时间会增加到5.1ms。

上述测试已在Fermi架构上进行。您可以尝试在开普勒卡上运行上述代码。

CUDA在warp中对不同地址的原子操作性能

1 个答案: