这是一个CUDA线程同步问题还是其他什么?

时间:2013-06-27 17:15:49

标签: cuda parallel-processing matrix-multiplication

我对并行编程和堆栈溢出很新。我正在使用CUDA进行矩阵乘法实现。我使用列顺序浮点数作为矩阵表示。

我开发的算法有点独特,如下所示。给定矩阵n×m矩阵A和m×k矩阵B,我在每个块中启动具有m个线程的n×k个块。本质上,我为结果矩阵中的每个条目启动一个块,每个线程计算该条目的一个乘法。例如,

1 0 0     0 1 2  
0 1 0  *  3 4 5  
0 0 1     6 7 8

对于结果矩阵中的第一个条目,我将使用

启动每个线程

线程0计算1 * 3 线程1计算0 * 0 线程2计算0 * 1

每个线程添加到0初始化矩阵。 现在,我没有得到正确的答案。我一遍又一遍地得到这个

0 0 2
0 0 5
0 0 8

我的内核功能如下。这可能是一个线程同步问题,还是我搞砸了数组索引或什么?

    /*@param d_A: Column order matrix 
     *@param d_B: Column order matrix
     *@param d_result: 0-initialized matrix that kernels write to
     *@param dim_A: dimensionality of A (number of rows)
     *@param dim_B: dimensionality of B (number of rows)
     */
    __global__ void dot(float *d_A, float *d_B, float *d_result, int dim_A, int dim_B) {
        int n = blockIdx.x;
        int k = blockIdx.y;
        int m = threadIdx.x;

       float a = d_A[(m * dim_A) + n];
       float b = d_B[(k * dim_B) + m];
       //d_result[(k * dim_A) + n] += (a * b);

       syncthreads();
       float temp = d_result[(k*dim_A) + n];
       syncthreads();
       temp = temp + (a * b);
       syncthreads();
       d_result[(k*dim_A) + n] = temp;
       syncthreads();
    }

1 个答案:

答案 0 :(得分:1)

在这种情况下,使用syncthreads()的整个想法是错误的。此API调用具有范围。

   1. syncthreads();
   2. float temp = d_result[(k*dim_A) + n];
   3. syncthreads();
   4. temp = temp + (a * b);
   5. syncthreads();
   6. d_result[(k*dim_A) + n] = temp;
   7. syncthreads();

局部变量float temp;具有线程范围,使用此同步屏障是没有意义的。 指针d_result是全局内存指针,使用此同步屏障也是无意义的。请注意,目前还没有(可能永远不会有)屏障可以全局同步线程。

通常,当共享内存用于计算时,需要使用syncthreads()。在这种情况下,您可能希望使用共享内存。 Here 您可以看到如何正确使用共享内存和syncthreads()的示例。 Here 你有一个带共享内存的矩阵乘法的例子。