流如何在CUDA中提供并发执行?

时间:2013-09-27 10:22:21

标签: concurrency cuda nvidia cuda-streams

在CUDA文档中,提到如果我们像这样使用2个流(stream0和stream1):我们在stream0中复制数据然后我们在stream0中启动第一个内核,然后我们在stream0中从设备中恢复数据,然后在stream1中进行相同的操作,这种方式,如“CUDA by example 2010”一书中提到的,不提供并发执行,但在“并发内核示例”中使用此方法并提供并发执行。那么请你帮我理解两个例子之间的区别吗?

2 个答案:

答案 0 :(得分:2)

重叠数据传输取决于许多因素,包括计算能力版本和编码样式。此博客可能会提供更多信息。

https://developer.nvidia.com/content/how-overlap-data-transfers-cuda-cc

答案 1 :(得分:2)

我只是在扩大Eric的答案。

在CUDA C编程指南中,报告了使用2流(例如stream0stream1)执行以下操作的示例

案例A

memcpyHostToDevice --- stream0
kernel execution   --- stream0
memcpyDeviceToHost --- stream0

memcpyHostToDevice --- stream1
kernel execution   --- stream1
memcpyDeviceToHost --- stream1

换句话说,首先发布stream0的所有操作,然后发布stream1的操作。在“CUDA By Example”一书第10.5节中报告了相同的例子,但它“显然”得出结论(与指南“明显”相矛盾),这样就不能实现并发。

在“CUDA By Example”的第10.6节中,提出了以下流的替代使用

案例B

memcpyHostToDevice --- stream0
memcpyHostToDevice --- stream1
kernel execution   --- stream0
kernel execution   --- stream1
memcpyDeviceToHost --- stream0
memcpyDeviceToHost --- stream1

换句话说,stream0stream1的mem copy操作和内核执行现在是隔行扫描的。本书指出了如何实现此解决方案的并发性。

实际上,“CUDA By Example”一书与CUDA C编程指南之间没有任何矛盾,因为本书中的讨论是在特别参考GTX 285卡的情况下进行的,而正如Eric已经指出的那样。在引用的博客文章How to Overlap Data Transfers in CUDA C/C++中,由于可用的依赖关系和复制引擎,可以在不同的体系结构上实现并发性。

例如,博客考虑两张牌:C1060和C2050。前者有一个内核引擎和一个拷贝引擎,一次只能发出一个内存事务(H2D或D2H)。后者有一个内核引擎和两个复制引擎,它们可以同时发出两个内存事务(H2D和D2H)。只有一个复制引擎的C1060会发生以下情况

案例A - C1060 - 未达成共识

Stream       Kernel engine         Copy engine             Comment

stream0 ----                       memcpyHostToDevice ----
stream0 ---- kernel execution ----                         Depends on previous memcpy
stream0 ----                       memcpyDeviceToHost ---- Depends on previous kernel
stream1 ----                       memcpyHostToDevice ---- 
stream1 ---- kernel execution ----                         Depends on previous memcpy
stream1 ----                       memcpyDeviceToHost ---- Depends on previous kernel

案例B - C1060 - 达成的并购

Stream         Kernel engine           Copy engine               Comment

stream0   ----                         memcpyHostToDevice 0 ----
stream0/1 ---- Kernel execution 0 ---- memcpyHostToDevice 1 ----  
stream0/1 ---- Kernel execution 1 ---- memcpyDeviceToHost 0 ---- 
stream1   ----                         memcpyDeviceToHost 1 ---- 

关于C2050并考虑3流的情况,在案例中现在实现了并发性,与C1060相反。

案例A - C2050 - 达成的并购

Stream           Kernel engine           Copy engine H2D           Copy engine D2H

stream0     ----                         memcpyHostToDevice 0 ----
stream0/1   ---- kernel execution 0 ---- memcpyHostToDevice 1 ----                              
stream0/1/2 ---- kernel execution 1 ---- memcpyHostToDevice 2 ---- memcpyDeviceToHost 0
stream0/1/2 ---- kernel execution 2 ----                           memcpyDeviceToHost 1
stream2     ----                                                   memcpyDeviceToHost 2