标签: c++ parallel-processing openmp
我正在尝试使用openmp 4.0找到将cpu代码卸载到Nvidia GPU的解决方案,但是在使用普通openmp指令运行时代码的执行时间没有任何显着改善。
我正在使用#pragma omp target指令,然后使用普通的#pragma omp parallel并行化代码,但是使用#pragma omp target指令没有改善执行时间。
请帮忙。