我是CUDA&的新手。试图让一个基本内核在设备上运行。我编写了示例&然后运行所以我知道设备驱动程序工作/ CUDA可以成功运行。我的目标是让我的C ++代码调用CADU来大大加快任务。我一直在网上阅读一些关于如何做到这一点的不同帖子。具体来说,[这里]:Can I call CUDA runtime function from C++ code not compiled by nvcc?。
当我编译和编译时,我的问题非常简单(令人信服)。运行我的代码(发布在下面)我没有错误但内核似乎没有运行。这应该是微不足道的修复,但在6个小时后,我不知所措。我会在NVIDIA论坛上发布这个帖子,但它们仍然是关闭的:/。我确定答案非常基础 - 有什么帮助吗?下面是:我的代码,我如何编译它,&我看到终端输出:
的main.cpp
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
extern void kernel_wrapper(int *a, int *b);
int main(int argc, char *argv[]){
int a = 2;
int b = 3;
printf("Input: a = %d, b = %d\n",a,b);
kernel_wrapper(&a, &b);
printf("Ran: a = %d, b = %d\n",a,b);
return 0;
}
kernel.cu
#include "cuPrintf.cu"
#include <stdio.h>
__global__ void kernel(int *a, int *b){
int tx = threadIdx.x;
cuPrintf("tx = %d\n", tx);
switch( tx ){
case 0:
*a = *a + 10;
break;
case 1:
*b = *b + 3;
break;
default:
break;
}
}
void kernel_wrapper(int *a, int *b){
cudaPrintfInit();
//cuPrintf("Anything...?");
printf("Anything...?\n");
int *d_1, *d_2;
dim3 threads( 2, 1 );
dim3 blocks( 1, 1 );
cudaMalloc( (void **)&d_1, sizeof(int) );
cudaMalloc( (void **)&d_2, sizeof(int) );
cudaMemcpy( d_1, a, sizeof(int), cudaMemcpyHostToDevice );
cudaMemcpy( d_2, b, sizeof(int), cudaMemcpyHostToDevice );
kernel<<< blocks, threads >>>( a, b );
cudaMemcpy( a, d_1, sizeof(int), cudaMemcpyDeviceToHost );
cudaMemcpy( b, d_2, sizeof(int), cudaMemcpyDeviceToHost );
printf("Output: a = %d\n", a[0]);
cudaFree(d_1);
cudaFree(d_2);
cudaPrintfDisplay(stdout, true);
cudaPrintfEnd();
}
我使用命令从终端编译上面的代码:
g++ -c main.cpp
nvcc -c kernel.cu -I/home/clj/NVIDIA_GPU_Computing_SDK/C/src/simplePrintf
nvcc -o main main.o kernel.o
当我运行代码时,我得到以下终端输出:
$./main
Input: a = 2, b = 3
Anything...?
Output: a = 2
Ran: a = 2, b = 3
很明显,main.cpp正在正确编译&amp;调用kernel.cu代码。显而易见的问题是内核似乎没有运行。我相信这个答案是基本的 - 非常非常基本。但我不知道发生了什么 - 请帮忙吗?
答案 0 :(得分:2)
在kernel_wrapper中,您有以下调用:
kernel<<< blocks, threads >>>( a, b );
您正在做的是向您传递对主机上存在的变量的引用。 GPU无法对它们进行操作。传递的值必须存在于GPU上。基本上通过d_1和d_2将解决问题,结果将是a = 12和b = 6.
kernel<<< blocks, threads >>>( d_1, d_2 );