Question

我有一个我无法确定的奇怪问题：

我有一个工作内核用于一些特殊的矩阵向量乘法，我想加快速度。基本上，大矩阵（10 ^ 6乘10 ^ 6）由几个小矩阵构成。所以我想把这些数据放在共享内存中。但是，当我尝试添加共享内存时，我只收到错误：

pycuda._driver.LogicError：cuLaunchKernel失败：值无效

所以我的工作内核是：

#define FIELD_SIZE {field}
#define BLOCK_SIZE {block}

__global__ void MatrixMulKernel(double *gpu_matrix, double *gpu_b, double *gpu_y)
{
    int tx = ... + threadIdx.x;

    if(tx < FIELD_SIZE*FIELD_SIZE*BLOCK_SIZE) 
    { ... multiplication ... }
}

如果我尝试添加共享内存部分，它看起来像

#define FIELD_SIZE {field}
#define BLOCK_SIZE {block}

__global__ void MatrixMulKernel(double *gpu_matrix_ptr, double *gpu_b, double *gpu_y)
{
    __shared__ double gpu_matrix[BLOCK_SIZE*BLOCK_SIZE*13];

    int tx = ... + threadIdx.x;
    if(tx < BLOCK_SIZE*BLOCK_SIZE*13) {  gpu_matrix[tx] = gpu_matrix_ptr[tx];  }
    __syncthreads();

    if(tx < FIELD_SIZE*FIELD_SIZE*BLOCK_SIZE) 
    { ... multiplication ... }
}

这是我改变的唯一部分，所以基本上它必须是gpu_matrix [tx] = gpu_matrix_ptr [tx]语句，不是吗？但我没有看到应该如何。我基本上尝试从pycuda示例中复制平铺矩阵乘法示例。 http://wiki.tiker.net/PyCuda/Examples/MatrixmulTiled

调用是：

self.kernel.prepare([np.intp, np.intp, np.intp])
self.kernel.prepared_call(grid_shape,
              block_shape,
              self.matrix_gpu.gpudata,
              b_gpu.gpudata,
              y_gpu.gpudata)

其中matrix_gpu，b_gpu和y_gpu是pycuda.gpuarray实例。

希望你能解决我的一些困惑......

Answer 1

根据您的描述，您分配的共享内存太大了。

__shared__ double gpu_matrix[BLOCK_SIZE*BLOCK_SIZE*13];

shared mem是cuda gpu的硬件资源之一。总大小约为48KBytes，你无法增加。

CUDA实际上提供了以下目录中的工具来帮助您计算可以使用的硬件资源。

$CUDA_ROOT/tools/CUDA_Occupancy_Calculator.xls

另一方面，mat-vec-mul类内核所需的共享内存的大小应该能够从O（BLOCK_SIZE^2）减少到O（BLOCK_SIZE）。您可能希望在实现自己的内核之前阅读一些成功的mat-vec-mul内核的代码，例如MAGMA。

pycuda共享内存错误“pycuda._driver.LogicError：cuLaunchKernel failed：invalid value”

1 个答案: