我正在做的是将数组从C#传递给C ++ dll。然后我在CUDA中做一些计算,我需要将数据复制到上面提到的数组。之后我将在C#项目的后续步骤中使用它。
问题出在我用许多内核进行一些计算然后使用cudaMemcpy()将数据从设备复制到主机。第一个cudaMemcpy()比后来的类似操作cudaMemcpy()需要更多的时间。
人们说cudaMemcpy()从设备到主机(不是固定内存)是同步的。真的吗?有没有解决方法呢?
非常感谢提前。
答案 0 :(得分:0)
人们说cudaMemcpy()从设备到主机(不是固定内存)是同步的。这是真的吗?
是的,这是真的。
是否有解决方法?
可以帮助您的一件事是使用Cuda Streams。因此,您将执行与复制重叠。
编辑:
如果你不能使用流,那么我知道没有可行的解决方法。
您可以考虑的事情之一就是我在评论中提到的是在GPU上构建整个应用程序,以便您完全避免内存传输(或者可以考虑将非常少的字节复制到CPU)。这实际上取决于应用程序的类型。在您的情况下可能会或可能不会。