并发内核执行

时间:2013-08-27 11:11:55

标签: concurrency cuda

我想知道是否使用多个cuda流,提供内核的并发执行?或者它只提供复制和内核执行的并发? 我正在寻找一种执行多个Concurrent内核的解决方案。 任何人都可以帮助我吗?

1 个答案:

答案 0 :(得分:1)

CUDA流为required for most types of asynchronous concurrent execution,但主机/设备并发除外。 Memcpy / compute重叠和并发内核需要流。

许多人错误地认为他们可以使用并发内核执行来并行运行任意内核。但并发内核执行通常仅在要执行的内核在其资源使用方面(块,寄存器,共享内存)较小时才可见。使用大量线程块,大量寄存器或大量共享内存的内核可能无法与其他内核同时运行 - 因为它本身就在使用整个机器。

您可以通过研究和运行concurrent kernels sample中的CUDA sample codes来开始并发内核执行。