标签: parallel-processing cuda mpi
当我从CUDA网格中的一个进程启动N个CUDA块并且每个进程启动N个MPI进程并且每个进程有一个CUDA块时,效率是否存在差异,假设块之间没有通信?
答案 0 :(得分:1)
一如既往:这取决于。
如果您没有使用具有Hyper Q设备的CUDA5,则在一个进程中启动网格CUDA网格应该更有效。否则,我无法告诉他们确定它的唯一方法。
Hyper Q
您可能希望观看this video,特别是Jen Hsun Huang谈到Hyper Q