标签: openmp
我已经阅读了许多教程幻灯片,这些幻灯片显示,当将代码卸载到GPU上时,要添加额外的并行度,我们需要使用“团队分发”编译指示将线程团队映射到不同的线程块中。但是我不了解的是这些映射如何帮助提高性能。此映射是否会利用GPU上的共享内存?谢谢!