将C ++ 2D数组转换为CUDA 1D数组时出错。 让我展示我的源代码。
int main(void)
{
float h_arr[1024][256];
float *d_arr;
// --- Some codes to populate h_arr
// --- cudaMallocPitch
size_t pitch;
cudaMallocPitch((void**)&d_arr, &pitch, 256, 1024);
// --- Copy array to device
cudaMemcpy2D(d_arr, pitch, h_arr, 256, 256, 1024, cudaMemcpyHostToDevice);
}
我尝试运行代码,但会弹出错误。
如何正确使用cudaMallocPitch()
和cudaMemcpy2D()
?
答案 0 :(得分:5)
你写的cudaMallocPitch
电话看起来不错,但是这个:
cudaMemcpy2D(d_arr, pitch, h_arr, 256, 256, 1024, cudaMemcpyHostToDevice);
不正确。引自documentation
从内存区域复制矩阵(每行宽度字节的高度行) 由src指向dst指向的内存区域,其中kind是 cudaMemcpyHostToHost,cudaMemcpyHostToDevice之一, cudaMemcpyDeviceToHost或cudaMemcpyDeviceToDevice,并指定 副本的方向。 dpitch和spitch是内存中的宽度 dst和src指向的2D数组的字节,包括任何字节 填充添加到每行的末尾。内存区域可能没有 交叠。宽度不得超过dpitch或spitch。调用 cudaMemcpy2D()与dst和src指针不匹配 复制的方向导致未定义的行为。 cudaMemcpy2D() 如果dpitch或spitch超过允许的最大值,则返回错误。
因此必须在 bytes 中指定要复制的源间距和宽度。您的主机矩阵的间距为sizeof(float) * 256
个字节,因为您要复制的源间距和源宽度相同,这意味着您的cudaMemcpy2D
调用应如下所示:
cudaMemcpy2D(d_arr, pitch, h_arr, 256*sizeof(float),
256*sizeof(float), 1024, cudaMemcpyHostToDevice);
答案 1 :(得分:2)
Talonmies已经圆满地回答了这个问题。这里有一些可能对社区有用的进一步解释。
在CUDA中访问2D数组时,如果每一行都正确对齐,内存事务会快得多。
CUDA提供cudaMallocPitch
函数来“填充”具有额外字节的2D矩阵行,以实现所需的对齐。有关更多信息,请参阅“CUDA C编程指南”,第3.2.2和5.3.2节。
假设我们要分配浮点(单精度)元素的2D填充数组,cudaMallocPitch
的语法如下:
cudaMallocPitch(&devPtr, &devPitch, Ncols * sizeof(float), Nrows);
,其中
devPtr
是float(float *devPtr
)的输出指针。devPitch
是一个size_t
输出变量,表示填充行的长度(以字节为单位)。Nrows
和Ncols
是表示矩阵大小的size_t
输入变量。回想一下,C / C ++和CUDA按行存储2D矩阵,cudaMallocPitch
将分配一个大小的内存空间,以字节为单位,等于Nrows * pitch
。但是,只有每行的第一个Ncols * sizeof(float)
字节将包含矩阵数据。因此,cudaMallocPitch
消耗的内存比2D矩阵存储所需的内存更多,但这是在更有效的内存访问中返回的。
CUDA还提供cudaMemcpy2D
函数,用于将数据从/向主机内存空间复制到/从分配有cudaMallocPitch
的设备内存空间。根据上述假设(单精度2D矩阵),语法如下:
cudaMemcpy2D(devPtr, devPitch, hostPtr, hostPitch, Ncols * sizeof(float), Nrows, cudaMemcpyHostToDevice)
,其中
devPtr
和hostPtr
是分别指向(源)设备和(目标)主机内存空间的float(float *devPtr
和float *hostPtr
)的输入指针; < / LI>
devPitch
和hostPitch
是size_t
输入变量,分别表示设备和主机内存空间的填充行的长度(以字节为单位); Nrows
和Ncols
是表示矩阵大小的size_t
输入变量。请注意,cudaMemcpy2D
也允许在主机端分配内存。如果主机内存没有音调,则为hostPtr = Ncols * sizeof(float)
。此外,cudaMemcpy2D
是双向的。对于上面的示例,我们将数据从主机复制到设备。如果我们要将数据从设备复制到主机,则上面的行将更改为
cudaMemcpy2D(hostPtr, hostPitch, devPtr, devPitch, Ncols * sizeof(float), Nrows, cudaMemcpyDeviceToHost)
可以按照以下示例执行对cudaMallocPitch
分配的2D矩阵元素的访问:
int tidx = blockIdx.x*blockDim.x + threadIdx.x;
int tidy = blockIdx.y*blockDim.y + threadIdx.y;
if ((tidx < Ncols) && (tidy < Nrows))
{
float *row_a = (float *)((char*)devPtr + tidy * pitch);
row_a[tidx] = row_a[tidx] * tidx * tidy;
}
在这样的示例中,tidx
和tidy
分别用作列索引和行索引(请记住,在CUDA中,x
- 线程跨越列和y
-threads跨行以支持合并)。指向行的第一个元素的指针是通过将初始指针devPtr
偏移行长度tidy * pitch
(以字节为单位)来计算的(char *
是指向字节的指针,sizeof(char)
是1
字节),其中每行的长度是通过使用音调信息计算的。
下面,我将提供一个完整的例子来展示这些概念。
#include<stdio.h>
#include<cuda.h>
#include<cuda_runtime.h>
#include<device_launch_parameters.h>
#include<conio.h>
#define BLOCKSIZE_x 16
#define BLOCKSIZE_y 16
#define Nrows 3
#define Ncols 5
/*****************/
/* CUDA MEMCHECK */
/*****************/
#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, char *file, int line, bool abort = true)
{
if (code != cudaSuccess)
{
fprintf(stderr, "GPUassert: %s %s %dn", cudaGetErrorString(code), file, line);
if (abort) { getch(); exit(code); }
}
}
/*******************/
/* iDivUp FUNCTION */
/*******************/
int iDivUp(int hostPtr, int b){ return ((hostPtr % b) != 0) ? (hostPtr / b + 1) : (hostPtr / b); }
/******************/
/* TEST KERNEL 2D */
/******************/
__global__ void test_kernel_2D(float *devPtr, size_t pitch)
{
int tidx = blockIdx.x*blockDim.x + threadIdx.x;
int tidy = blockIdx.y*blockDim.y + threadIdx.y;
if ((tidx < Ncols) && (tidy < Nrows))
{
float *row_a = (float *)((char*)devPtr + tidy * pitch);
row_a[tidx] = row_a[tidx] * tidx * tidy;
}
}
/********/
/* MAIN */
/********/
int main()
{
float hostPtr[Nrows][Ncols];
float *devPtr;
size_t pitch;
for (int i = 0; i < Nrows; i++)
for (int j = 0; j < Ncols; j++) {
hostPtr[i][j] = 1.f;
//printf("row %i column %i value %f \n", i, j, hostPtr[i][j]);
}
// --- 2D pitched allocation and host->device memcopy
gpuErrchk(cudaMallocPitch(&devPtr, &pitch, Ncols * sizeof(float), Nrows));
gpuErrchk(cudaMemcpy2D(devPtr, pitch, hostPtr, Ncols*sizeof(float), Ncols*sizeof(float), Nrows, cudaMemcpyHostToDevice));
dim3 gridSize(iDivUp(Ncols, BLOCKSIZE_x), iDivUp(Nrows, BLOCKSIZE_y));
dim3 blockSize(BLOCKSIZE_y, BLOCKSIZE_x);
test_kernel_2D << <gridSize, blockSize >> >(devPtr, pitch);
gpuErrchk(cudaPeekAtLastError());
gpuErrchk(cudaDeviceSynchronize());
gpuErrchk(cudaMemcpy2D(hostPtr, Ncols * sizeof(float), devPtr, pitch, Ncols * sizeof(float), Nrows, cudaMemcpyDeviceToHost));
for (int i = 0; i < Nrows; i++)
for (int j = 0; j < Ncols; j++)
printf("row %i column %i value %f \n", i, j, hostPtr[i][j]);
return 0;
}