我有一个特斯拉C2070应该有5636554752字节的内存。
然而,这给了我一个错误:
int *buf_d = NULL;
err = cudaMalloc((void **)&buf_d, 1000000000*sizeof(int));
if( err != cudaSuccess)
{
printf("CUDA error: %s\n", cudaGetErrorString(err));
return EXIT_ERROR;
}
这怎么可能?这是否与最大内存间距有关?以下是GPU的规格:
Device 0: "Tesla C2070"
CUDA Driver Version: 3.20
CUDA Runtime Version: 3.20
CUDA Capability Major/Minor version number: 2.0
Total amount of global memory: 5636554752 bytes
Multiprocessors x Cores/MP = Cores: 14 (MP) x 32 (Cores/MP) = 448 (Cores)
Total amount of constant memory: 65536 bytes Total amount of shared memory per block: 49152 bytes Total number of registers available per block: 32768 Warp size: 32
Maximum number of threads per block: 1024
Maximum sizes of each dimension of a block: 1024 x 1024 x 64
Maximum sizes of each dimension of a grid: 65535 x 65535 x 1
Maximum memory pitch: 2147483647 bytes
至于我正在运行的机器,它有24个Intel®Xeon®处理器X565,以及Linux发行版Rocks 5.4(Maverick)。
有什么想法吗?谢谢!
答案 0 :(得分:11)
基本问题出现在你的问题标题中 - 你实际上知道你有足够的内存,你假设你做了。运行时API包含cudaMemGetInfo
函数,该函数将返回设备上有多少可用内存。在设备上建立上下文时,驱动程序必须为设备代码保留空间,为每个线程保留本地内存,为printf
支持保留fifo缓冲区,为每个线程保留堆栈,为内核中malloc
保留堆/ new
来电(有关详细信息,请参阅this answer)。所有这些都会消耗相当多的内存,因此在您假设可用于代码的ECC预留之后,使用的内存远远小于最大可用内存。 API还包括cudaDeviceGetLimit
,您可以使用它来查询设备运行时支持消耗的内存量。还有一个伴随调用cudaDeviceSetLimit
,它允许您更改运行时支持的每个组件将保留的内存量。
即使您根据自己的喜好调整了运行时内存占用量并且具有驱动程序的实际可用内存值,仍然存在页面大小粒度和碎片注意事项。很少有可能将API报告的每个字节都分配为免费。通常,当目标是尝试分配卡上的每个可用字节时,我会做这样的事情:
const size_t Mb = 1<<20; // Assuming a 1Mb page size here
size_t available, total;
cudaMemGetInfo(&available, &total);
int *buf_d = 0;
size_t nwords = total / sizeof(int);
size_t words_per_Mb = Mb / sizeof(int);
while(cudaMalloc((void**)&buf_d, nwords * sizeof(int)) == cudaErrorMemoryAllocation)
{
nwords -= words_per_Mb;
if( nwords < words_per_Mb)
{
// signal no free memory
break;
}
}
// leaves int buf_d[nwords] on the device or signals no free memory
(注意从未在编译器附近,只在CUDA 3或更高版本上安全)。隐含地假设这里没有明显的大分配问题来源(32位主机操作系统,没有启用TCC模式的WDDM Windows平台,旧的已知驱动程序问题)。