我正在研究具有不同初始条件的相同常微分方程的并行求解。我已经使用OpenMP解决了这个问题,现在我想在GPU上实现类似的代码。具体来说,我想在设备上为类构造函数中的浮点数分配内存,然后在析构函数中对其进行分配。它对我不起作用,因为我得到的可执行文件“被信号SIGSEGV(地址边界错误)终止”。可以在CUDA中使用类,构造函数和析构函数吗?
顺便说一句,我是CUDA的新手,并且对C ++也不太有经验。
我附上了代码,以防我对问题的描述不佳。
#include <cmath>
#include <iostream>
#include <fstream>
#include <iomanip>
#include <random>
#include <string>
#include <chrono>
#include <ctime>
using namespace std;
template<class ode_sys>
class solver: public ode_sys
{
public:
int *nn;
float *t,*tt,*dt,*x,*xx,*m0,*m1,*m2,*m3;
using ode_sys::rhs_sys;
__host__ solver(int n): ode_sys(n)
{ //here I try to allocate memory. It works malloc() and doesn't with cudaMalloc()
size_t size=sizeof(float)*n;
cudaMalloc((void**)&nn,sizeof(int));
*nn=n;
cudaMalloc((void**)&t,sizeof(float));
cudaMalloc((void**)&tt,sizeof(float));
cudaMalloc((void**)&dt,sizeof(float));
cudaMalloc((void**)&x,size);
cudaMalloc((void**)&xx,size);
cudaMalloc((void**)&m0,size);
cudaMalloc((void**)&m1,size);
cudaMalloc((void**)&m2,size);
cudaMalloc((void**)&m3,size);
}
__host__ ~solver()
{
cudaFree(nn);
cudaFree(t);
cudaFree(tt);
cudaFree(dt);
cudaFree(x);
cudaFree(xx);
cudaFree(m0);
cudaFree(m1);
cudaFree(m2);
cudaFree(m3);
}
__host__ __device__ void rk4()
{//this part is not important now.
}
};
class ode
{
private:
int *nn;
public:
float *eps,*d;
__host__ ode(int n)
{
cudaMalloc((void**)&nn,sizeof(int));
*nn=n;
cudaMalloc((void**)&eps,sizeof(float));
size_t size=sizeof(float)*n;
cudaMalloc((void**)&d,size);
}
__host__ ~ode()
{
cudaFree(nn);
cudaFree(eps);
cudaFree(d);
}
__host__ __device__ float f(float x_,float y_,float z_,float d_)
{
return d_+*eps*(sinf(x_)+sinf(z_)-2*sinf(y_));
}
__host__ __device__ void rhs_sys(float *t,float *dt,float *x,float *dx)
{
}
};
//const float pi=3.14159265358979f;
__global__ void solver_kernel(int m,int n,solver<ode> *sys_d)
{
int index = threadIdx.x;
int stride = blockDim.x;
//actually ode numerical evaluation should be here
for (int l=index;l<m;l+=stride)
{//this is just to check that i can run kernel
printf("%d Hello \n", l);
}
}
int main ()
{
auto start = std::chrono::system_clock::now();
std::time_t start_time = std::chrono::system_clock::to_time_t(start);
cout << "started computation at " << std::ctime(&start_time);
int m=128,n=4,l;// i want to run 128 threads, n is dimension of ode
size_t size=sizeof(solver<ode>(n));
solver<ode> *sys_d; //an array of objects
cudaMalloc(&sys_d,size*m); //nvprof shows that this array is allocated
for (l=0;l<m;l++)
{
new (sys_d+l) solver<ode>(n); //it doesn't work as it meant to
}
solver_kernel<<<1,m>>>(m,n,sys_d);
for (l=0;l<m;l++)
{
(sys_d+l)->~solver<ode>(); //it doesn't work as it meant to
}
cudaFree(sys_d); //it works
auto end = std::chrono::system_clock::now();
std::chrono::duration<double> elapsed_seconds = end-start;
std::time_t end_time = std::chrono::system_clock::to_time_t(end);
std::cout << "finished computation at " << std::ctime(&end_time) << "elapsed time: " << elapsed_seconds.count() << "s\n";
return 0;
}
//end of file
答案 0 :(得分:3)
其他答案也说明:
cudaMalloc()
上分配的std::vector
,使用std::make_unique
,使用new
等分配的系统内存(又称为主机内存)无法访问在GPU上运行的代码。因此,您需要分配主机端和设备端内存。有关使用设备端和主机端内存的简单示例,请参见CUDA vectorAdd
sample program。
(实际上,您还可以进行一种特殊的分配,可以从设备和主机访问 ;这是Unified Memory。但是现在暂时忽略它因为我们正在处理基础知识。)
具体来说,我想在设备上为类构造函数中的浮点数分配内存,然后在析构函数中对其进行分配。
我不确定您是否真的想这样做。您似乎正在采用一种更具Java风格的方法,其中您所做的一切均以名词为中心,即所有类均使用类:您不求解方程式,而是拥有一个“方程式求解器”。您没有“做X”,而是有“ XDoer”类,等等。为什么不仅仅拥有一个(模板化的)函数来解决ODE系统并返回解决方案?您是否以其他方式使用“求解器”?
(这一点是由Steve Yegge的博客文章Execution in the Kingdom of Nouns启发的。)
在写得很好的现代C ++中,我们尝试进行avoid direct, manual allocation of memory(顺便说一下,它是C ++核心编程准则的链接)。现在,您确实可以使用析构函数释放内存,这还不算太糟糕,但是我真的会考虑在主机上使用std::unique_ptr
并在设备上使用等效的东西(例如我的cuda::memory::unique_ptr
现代C ++ CUDA API包装器cuda-api-wrappers
库);或thrust
的设备向量等面向GPU的容器类。
调用CUDA API函数后,您实际上必须检查错误。启动内核后,这是双重需要的。当您调用C ++标准库代码时,它会在错误时引发异常。 CUDA的运行时API类似于C,并且不了解异常。它将失败并设置一些您需要检查的错误变量。
因此,您可以编写错误检查(如我在上面链接的vectorAdd()
示例中所述),或者获得一些库来展现更多类似于标准库的行为。 cuda-api-wrappers
和thrust
都会在不同的抽象级别上做到这一点;其他库/框架也将如此。
答案 1 :(得分:1)
在主机端需要一个阵列,在设备端需要一个阵列。
初始化主机阵列,然后使用cudaMemcpy
将其复制到设备阵列。销毁必须再次在主机端进行。
一种替代方法是从设备初始化数组,您需要将__device__
放在构造函数的前面,然后只需使用malloc
。
答案 2 :(得分:0)
您不能在主机代码中取消引用指向设备内存的指针:
__host__ ode(int n)
{
cudaMalloc((void**)&nn,sizeof(int));
*nn=n; // !!! ERROR
cudaMalloc((void**)&eps,sizeof(float));
size_t size=sizeof(float)*n;
cudaMalloc((void**)&d,size);
}
您将必须使用cudaMemcpy复制值。
(或使用__global__
函数的参数。)