我试图在CUDA应用程序中实现链接列表,以模拟不断增长的网络。为了做到这一点,我在malloc
函数中使用__device__
,旨在在全局内存中分配内存。
代码是:
void __device__ insereviz(Vizinhos **lista, Nodo *novizinho, int *Gteste)
{
Vizinhos *vizinho;
vizinho=(Vizinhos *)malloc(sizeof(Vizinhos));
vizinho->viz=novizinho;
vizinho->proxviz=*lista;
*lista=vizinho;
novizinho->k=novizinho->k+1;
}
在一定数量的分配元素(大约90000)后,我的程序返回"未知错误"。起初我虽然这是一个记忆约束,但我检查nvidia-smi
并且我已经
+------------------------------------------------------+
| NVIDIA-SMI 331.38 Driver Version: 331.38 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce GTX 770 Off | 0000:01:00.0 N/A | N/A |
| 41% 38C N/A N/A / N/A | 159MiB / 2047MiB | N/A Default |
+-------------------------------+----------------------+----------------------+
除非malloc
在共享内存中分配,否则它看起来不会成为内存问题。为了测试这一点,我尝试在分开的块中运行两个网络,并且仍然限制了我能够分配的结构数量。但是当我尝试使用较少数量的结构运行同一程序的两个实例时,它们都完成没有错误。
我也尝试了cuda-memcheck
并获得了
========= CUDA-MEMCHECK
========= Invalid __global__ write of size 8
========= at 0x000001b0 in /work/home/melo/proj_cuda/testalloc/cuda_testamalloc.cu:164:insereviz(neighbor**, node*, int*)
========= by thread (0,0,0) in block (0,0,0)
========= Address 0x00000000 is out of bounds
========= Device Frame:/work/home/melo/proj_cuda/testalloc/cuda_testamalloc.cu:142:insereno(int, int, node**, node**, int*) (insereno(int, int, node**, node**, int*) : 0x648)
========= Device Frame:/work/home/melo/proj_cuda/testalloc/cuda_testamalloc.cu:111:fazrede(node**, int, int, int, int*) (fazrede(node**, int, int, int, int*) : 0x4b8)
========= Saved host backtrace up to driver entry point at kernel launch time
========= Host Frame:/usr/lib/libcuda.so.1 (cuLaunchKernel + 0x331) [0x138281]
========= Host Frame:gpu_testamalloc5 [0x1bd48]
========= Host Frame:gpu_testamalloc5 [0x3b213]
========= Host Frame:gpu_testamalloc5 [0x2fe3]
========= Host Frame:gpu_testamalloc5 [0x2e39]
========= Host Frame:gpu_testamalloc5 [0x2e7f]
========= Host Frame:gpu_testamalloc5 [0x2c2f]
========= Host Frame:/lib/x86_64-linux-gnu/libc.so.6 (__libc_start_main + 0xfd) [0x1eead]
========= Host Frame:gpu_testamalloc5 [0x2829]
内核启动是否存在任何限制或我遗漏的内容?我怎么检查呢?
谢谢,
里卡多
答案 0 :(得分:5)
最可能的原因是你的"设备堆上的空间不足了#34;。这最初默认为8MB,但您可以更改它。
参考documentation,我们看到设备malloc
分配出设备堆。
如果发生错误,malloc
将返回NULL指针。在设备代码中测试此NULL指针(和主机代码 - 在这方面它与主机malloc
没有区别)是一种很好的做法。如果你得到一个NULL指针,你的设备堆空间就用完了。
如文档中所示,可以在内核调用之前使用以下命令调整设备堆的大小:
cudaDeviceSetLimit(cudaLimitMallocHeapSize, size_t size)
运行时API函数。
如果忽略所有这些并尝试使用返回的NULL指针,您将在设备代码中获得无效访问,如下所示:
========= Address 0x00000000 is out of bounds