CUDA设备到设备转移昂贵

时间:2011-05-19 19:02:19

标签: c++ cuda fft

我编写了一些代码来尝试交换2D矩阵的象限以用于FFT目的,这些代码存储在一个平面阵列中。

    int leftover = W-dcW;

    T *temp;
    T *topHalf;
cudaMalloc((void **)&temp, dcW * sizeof(T));

    //swap every row, left and right
    for(int i = 0; i < H; i++)
    {
        cudaMemcpy(temp, &data[i*W], dcW*sizeof(T),cudaMemcpyDeviceToDevice);
        cudaMemcpy(&data[i*W],&data[i*W+dcW], leftover*sizeof(T), cudaMemcpyDeviceToDevice);
        cudaMemcpy(&data[i*W+leftover], temp, dcW*sizeof(T), cudaMemcpyDeviceToDevice); 
    }

cudaMalloc((void **)&topHalf, dcH*W* sizeof(T));
    leftover = H-dcH;
    cudaMemcpy(topHalf, data, dcH*W*sizeof(T), cudaMemcpyDeviceToDevice);
    cudaMemcpy(data, &data[dcH*W], leftover*W*sizeof(T), cudaMemcpyDeviceToDevice);
    cudaMemcpy(&data[leftover*W], topHalf, dcH*W*sizeof(T), cudaMemcpyDeviceToDevice);

请注意,此代码需要设备指针,并且DeviceToDevice会进行传输。

为什么这似乎运行得这么慢?这可以以某种方式优化吗?与使用常规memcpy的主机上的相同操作相比,我将其计时时间大约慢了2倍。

有什么想法吗?

2 个答案:

答案 0 :(得分:6)

我最终编写了一个内核来进行交换。这确实比设备到设备memcpy操作更快

答案 1 :(得分:3)

在CUDA中执行2d fftshift的以下解决方案可能会引起关注:

#define IDX2R(i,j,N) (((i)*(N))+(j))

__global__ void fftshift_2D(double2 *data, int N1, int N2)
{
    int i = threadIdx.y + blockDim.y * blockIdx.y;
    int j = threadIdx.x + blockDim.x * blockIdx.x;

    if (i < N1 && j < N2) {
        double a = pow(-1.0, (i+j)&1);

        data[IDX2R(i,j,N2)].x *= a;
        data[IDX2R(i,j,N2)].y *= a;
    }
}

它包括将要转换的矩阵乘以1 s和-1 s的棋盘,这相当于乘以exp(-j*(n+m)*pi),从而在两个方向上移位共轭域。

您必须在应用CUFFT之前和之后调用此内核。

一位专业人士认为,可以避免内存移动/交换。

加速改进

根据NVIDIA Forum收到的建议,可以通过更改指示来提高速度

double a = pow(-1.0,(i+j)&1);

double a = 1-2*((i+j)&1);

避免使用慢速常规战俘。