我有一个包含一些变量和一些指针变量的结构。 我想通过2种不同的功能将该结构从主机复制到设备。在第一个函数中,我必须复制一个指针变量以外的整个结构,然后在第二个函数中,我必须复制其余的指针。
我能够复制整个结构,但无法复制第二个函数中剩余的指针变量。
#include<iostream>
#define cudaCheckErrors(msg) \
do { \
cudaError_t __err = cudaGetLastError(); \
if (__err != cudaSuccess) { \
fprintf(stderr, "Fatal error: %s (%s at %s:%d)\n", \
msg, cudaGetErrorString(__err), \
__FILE__, __LINE__); \
fprintf(stderr, "*** FAILED - ABORTING\n"); \
exit(1); \
} \
} while (0)
struct MultiSGDKernelParam {
int count;
size_t sizes;
float *weights;
float *mom;
float lrs;
};
__global__ void Launch(MultiSGDKernelParam *param, int N, MultiSGDKernelParam *result)
{
for(int i=0; i<N; i++)
{
result[i] =param[i];
}
}
MultiSGDKernelParam *fillStructure(float *temp, const int N)
{
MultiSGDKernelParam *param;
param = (MultiSGDKernelParam*) malloc( N * sizeof(MultiSGDKernelParam));
for( int i=0; i< N ; i++)
{
param[i].count = i;
param[i].sizes = i*2;
param[i].lrs = param[i].sizes - i;
param[i].weights = &temp[i];
}
std::cout<<"Inside the function"<<"\n";
for(int i=0; i< N; i++)
{
std::cout<<param[i].sizes<<" ,"<<param[i].lrs<<"\t";
}
std::cout<<std::endl;
for(int i =0 ; i<N;i++)
{
std::cout<<*(param[i].weights)<<"\t";
}
std::cout<<std::endl;
MultiSGDKernelParam *d_param;
cudaMalloc((void**)&d_param, N * sizeof(MultiSGDKernelParam));
cudaMemcpy(d_param,param,N * sizeof(MultiSGDKernelParam),cudaMemcpyHostToDevice);
return d_param;
}
MultiSGDKernelParam * fillFullStructure(float *tweight, float *tmom, const int N )
{
MultiSGDKernelParam *param = fillStructure( tweight, N );
/* float *d_mom;
cudaMalloc((void**)&d_mom,N*sizeof(float));
cudaCheckErrors("cudaMalloc1 fail");
cudaMemcpy(d_mom,tmom,N*sizeof(float), cudaMemcpyHostToDevice);
cudaCheckErrors("cudaMemcpy1 fail");*/
for( int i=0; i< N ; i++)
{
cudaMemcpy(&(param[i].mom),&(tmom[i]),sizeof(float), cudaMemcpyHostToDevice);
cudaCheckErrors("cudaMempcpy2 fail");
}
std::cout<<"Momentum Values copied"<<"\n";
/*cudaMemcpy(&(param->mom),tmom,N*sizeof(float), cudaMemcpyHostToDevice);
cudaCheckErrors("cudaMempcpy1fail");*/
return param;
}
int main()
{
static const int N =5;
float tempweight [N], tempmom[N] ;
for(int i=0; i< N; i++)
{
tempweight[i] = i*3 +1;
tempmom[i] = i+3;
}
MultiSGDKernelParam *result;
MultiSGDKernelParam *param = fillFullStructure( tempweight,tempmom, N );
const unsigned blocks = 1;
const unsigned threadsPerBlock = 4;
cudaMalloc(&result, N * sizeof(MultiSGDKernelParam));
Launch<<<blocks,threadsPerBlock>>>(param, N, result);
cudaDeviceSynchronize();
MultiSGDKernelParam *paramresult;
paramresult = (MultiSGDKernelParam*) malloc( N * sizeof(MultiSGDKernelParam));
cudaMemcpy(paramresult,result, N * sizeof(MultiSGDKernelParam),cudaMemcpyDeviceToHost);
std::cout<<"Inside Main"<<"\n";
for(int i=0; i< N; i++)
{
std::cout<<paramresult[i].sizes<<" ,"<<paramresult[i].lrs<<"\t";
}
std::cout<<std::endl;
for(int i =0 ; i<N;i++)
{
std::cout<<*(paramresult[i].weights)<<"\t";
std::cout<<*(paramresult[i].mom)<<"\t";
}
std::cout<<std::endl;
return 0;
}
输出为
Inside the function
0 ,0 2 ,1 4 ,2 6 ,3 8 ,4
1 4 7 10 13
Momentum Values copied
Inside Main
0 ,0 2 ,1 4 ,2 6 ,3 8 ,4
Segmentation fault (core dumped)
我的代码已经编译好了,但是在打印值时却给出了细分错误。复制成功了吗?
答案 0 :(得分:1)
我不建议这样编写CUDA内核:
__global__ void Launch(MultiSGDKernelParam *param, int N, MultiSGDKernelParam *result)
{
for(int i=0; i<N; i++)
{
result[i] =param[i];
}
}
即使仅用于演示,您也应该执行以下两项操作之一:要么像这样编写内核(不对CUDA线程进行专门化),并且仅启动1个1线程的块(那么很明显,这仅用于演示),或者使用适当的CUDA线程索引(例如int i = threadIdx.x+blockDim.x*blockIdx.x;
)并摆脱for循环,并使用多个线程启动您的块。从目前的情况来看,您都没有做过。您有一个没有专门化的普通for循环,在多个线程中运行。当然,这也许不是您问题的重点,但是您现在所拥有的这种行为意味着线程在尝试写入result[i]
时将互相踩踏。即使您的所有其余代码都是正确的,也可能使您难以理解事情是否正常运行。我们将通过将您的启动配置切换为<<<1,1>>>
此:
param[i].weights = &temp[i];
不正确。您正在结构内部设置一个指针,以指向主机内存中的内容。 (此处的temp
项指向您的tempweight
主机数组。)这样的指针不能在设备代码中以任何方式使用。这是CUDA的基本原则。当您将该结构复制到设备时,该指针的数值将不会以任何方式更改,这意味着它仍指向主机内存。如果打算在设备代码中的任何位置使用此指针,则必须学习如何完成CUDA深复制操作。 this answer分步进行。碰巧的是,您实际上并没有尝试在设备代码中取消引用该指针-您只是将结构从一个位置复制到另一个位置。因此,我们无需进一步研究,即可使您显示的设备代码正常工作。
seg错误的最接近原因是您尚未在代码中的任何地方初始化mom
结构成员,但是您尝试在此处取消引用它:
std::cout<<*(paramresult[i].mom)<<"\t";
在C或C ++中,如果尝试取消引用尚未初始化的指针,则可能会发生不良情况。我们可以通过注释掉该行代码来解决此问题。我们还可以通过在设备代码中将只是数值指针值从weights
结构成员复制到mom
结构成员来“修复”它。但是,我们不能在设备代码中直接使用这些指针,因为它们是如上所述的主机指针。
下面的代码解决了上面的第一和第三项。它对我来说似乎运行正常。
$ cat t1529.cu
#include<iostream>
#include <stdio.h>
#define cudaCheckErrors(msg) \
do { \
cudaError_t __err = cudaGetLastError(); \
if (__err != cudaSuccess) { \
fprintf(stderr, "Fatal error: %s (%s at %s:%d)\n", \
msg, cudaGetErrorString(__err), \
__FILE__, __LINE__); \
fprintf(stderr, "*** FAILED - ABORTING\n"); \
exit(1); \
} \
} while (0)
struct MultiSGDKernelParam {
int count;
size_t sizes;
float *weights;
float *mom;
float lrs;
};
__global__ void Launch(MultiSGDKernelParam *param, int N, MultiSGDKernelParam *result)
{
for(int i=0; i<N; i++)
{
result[i] =param[i];
}
}
MultiSGDKernelParam *fillStructure(float *temp, const int N)
{
MultiSGDKernelParam *param;
param = (MultiSGDKernelParam*) malloc( N * sizeof(MultiSGDKernelParam));
for( int i=0; i< N ; i++)
{
param[i].count = i;
param[i].sizes = i*2;
param[i].lrs = param[i].sizes - i;
param[i].weights = &temp[i];
}
std::cout<<"Inside the function"<<"\n";
for(int i=0; i< N; i++)
{
std::cout<<param[i].sizes<<" ,"<<param[i].lrs<<"\t";
}
std::cout<<std::endl;
for(int i =0 ; i<N;i++)
{
std::cout<<*(param[i].weights)<<"\t";
}
std::cout<<std::endl;
MultiSGDKernelParam *d_param;
cudaMalloc((void**)&d_param, N * sizeof(MultiSGDKernelParam));
cudaMemcpy(d_param,param,N * sizeof(MultiSGDKernelParam),cudaMemcpyHostToDevice);
return d_param;
}
MultiSGDKernelParam * fillFullStructure(float *tweight, float *tmom, const int N )
{
MultiSGDKernelParam *param = fillStructure( tweight, N );
/* float *d_mom;
cudaMalloc((void**)&d_mom,N*sizeof(float));
cudaCheckErrors("cudaMalloc1 fail");
cudaMemcpy(d_mom,tmom,N*sizeof(float), cudaMemcpyHostToDevice);
cudaCheckErrors("cudaMemcpy1 fail");*/
for( int i=0; i< N ; i++)
{
cudaMemcpy(&(param[i].mom),&(tmom[i]),sizeof(float), cudaMemcpyHostToDevice);
cudaCheckErrors("cudaMempcpy2 fail");
}
std::cout<<"Momentum Values copied"<<"\n";
/*cudaMemcpy(&(param->mom),tmom,N*sizeof(float), cudaMemcpyHostToDevice);
cudaCheckErrors("cudaMempcpy1fail");*/
return param;
}
int main()
{
static const int N =5;
float tempweight [N], tempmom[N] ;
for(int i=0; i< N; i++)
{
tempweight[i] = i*3 +1;
tempmom[i] = i+3;
}
MultiSGDKernelParam *result;
MultiSGDKernelParam *param = fillFullStructure( tempweight,tempmom, N );
const unsigned blocks = 1;
const unsigned threadsPerBlock = 1;
cudaMalloc(&result, N * sizeof(MultiSGDKernelParam));
Launch<<<blocks,threadsPerBlock>>>(param, N, result);
cudaDeviceSynchronize();
MultiSGDKernelParam *paramresult;
paramresult = (MultiSGDKernelParam*) malloc( N * sizeof(MultiSGDKernelParam));
cudaMemcpy(paramresult,result, N * sizeof(MultiSGDKernelParam),cudaMemcpyDeviceToHost);
std::cout<<"Inside Main"<<"\n";
for(int i=0; i< N; i++)
{
std::cout<<paramresult[i].sizes<<" ,"<<paramresult[i].lrs<<"\t";
}
std::cout<<std::endl;
for(int i =0 ; i<N;i++)
{
std::cout<<*(paramresult[i].weights)<<"\t";
// std::cout<<*(paramresult[i].mom)<<"\t";
}
std::cout<<std::endl;
return 0;
}
$ nvcc -o t1529 t1529.cu
$ cuda-memcheck ./t1529
========= CUDA-MEMCHECK
Inside the function
0 ,0 2 ,1 4 ,2 6 ,3 8 ,4
1 4 7 10 13
Momentum Values copied
Inside Main
0 ,0 2 ,1 4 ,2 6 ,3 8 ,4
1 4 7 10 13
========= ERROR SUMMARY: 0 errors
$
如果要在设备代码中实际使用weights
和mom
结构成员(指针),则需要开始尝试了解CUDA中的深层复制操作。我已经为您提供了一个链接,该链接通过一个有效的示例逐步说明了该过程。现在,您没有在代码中显示任何已实现的指示,并且为您编写代码超出了我打算在此处回答的范围,因为您没有尝试过。