标签: c++ parallel-processing gpu pragma openacc
我正在尝试并行化使用具有相同大小的多个数组的c ++代码。我有一个"主机版本"这不是平行的和一个" pragma版本"其中包含pragma。
小尺寸时,两个版本(主机和编译指示)的值都相同。 但是由于尺寸很大,价值观实际上是不同的。 算法的结果应该收敛,而不是pragma版本的情况。
你知道原因吗?
谢谢