我正在尝试使用CUDA(200x200x100)中的3D数组。
当我将z维度(model_num)从4更改为5时,我得到了分段错误。为什么,我该如何解决?
const int nrcells = 200;
const int nphicells = 200;
const int model_num = 5; //So far, 4 is the maximum model_num that works. At 5 and after, there is a segmentation fault
__global__ void kernel(float* mgridb)
{
const unsigned long long int i = (blockIdx.y * gridDim.x + blockIdx.x) * blockDim.x + threadIdx.x;
if(tx >= 0 && tx < nphicells && ty >=0 && ty < nrcells && tz >= 0 && tz < model_num){
//Do stuff with mgridb[i]
}
}
int main (void)
{
unsigned long long int size_matrices = nphicells*nrcells*model_num;
unsigned long long int mem_size_matrices = sizeof(float) * size_matrices;
float *h_mgridb = (float *)malloc(mem_size_matrices);
float mgridb[nphicells][nrcells][model_num];
for(int k = 0; k < model_num; k++){
for(int j = 0; j < nrcells; j++){
for(int i = 0; i < nphicells; i++){
mgridb[i][j][k] = 0;
}
}
}
float *d_mgridb;
cudaMalloc( (void**)&d_mgridb, mem_size_matrices );
cudaMemcpy(d_mgridb, h_mgridb, mem_size_matrices, cudaMemcpyHostToDevice);
int threads = nphicells;
uint3 blocks = make_uint3(nrcells,model_num,1);
kernel<<<blocks,threads>>>(d_mgridb);
cudaMemcpy( h_mgridb, d_mgridb, mem_size_matrices, cudaMemcpyDeviceToHost);
cudaFree(d_mgridb);
return 0;
}
答案 0 :(得分:3)
这将存储在堆栈中:
float mgridb[nphicells][nrcells][model_num];
您的筹码空间有限。当您超出可以存储在堆栈上的金额you are getting a seg fault时,无论是在分配点,还是在您尝试访问它时。
请改用malloc
。这会分配堆存储,它具有更高的限制。
上述所有内容均与CUDA无关。
您可能还需要调整访问数组的方式,但使用指针索引处理a flattened array并不困难。
您的代码看起来很奇怪,因为您使用h_mgridb
创建了一个适当大小的数组malloc
,然后将该数组复制到设备(进入d_mgridb
)。目前尚不清楚mgridb
在您的代码中的用途。 h_mgridb
和mgridb
不一样。