我是学生,这是我编写的同时运行cublasDtrsm函数的CUDA代码。
似乎代码已按顺序执行。 因为运行时间在顺序和同时方式上几乎相同。 (针对512,1024,2048平方矩阵执行)。 代码:
cublasHandle_t handle,handle2;
cudaStreamCreate ( &stream1) ;
cudaStreamCreate ( &stream2) ;
cublasCreate(&handle);
cublasCreate(&handle2);
cublasSetStream(handle, stream1);
cublasSetStream(handle2, stream2);
//cuBlas functions which I wanted to execute simultaneously
cublasDtrsm(handle,,,,....);
cublasDtrsm(handle2,,,,...);
我想念什么吗?还是有办法解决这个问题?