我正在使用:cudaMemcpy2DArrayToArray()。是否还有这个功能的异步对应物? cudaMemcpy2DArrayToArrayAsync()不存在。我想避免隐式同步我的cuda操作。
答案 0 :(得分:1)
其他10个左右的cudaMemcpy *()调用都有异步版本,所以我的猜测是这个调用以某种方式实现,阻止了完全异步版本。但请注意,文档说“此函数显示大多数用例的同步行为”,并且,它们似乎意味着:
对于从可分页主机内存到设备内存的传输,在启动副本之前执行流同步。一旦可分页缓冲区被复制到分段存储器以便DMA传输到设备存储器,该函数将返回,但DMA到最终目的地可能尚未完成。
对于从固定主机内存到设备内存的传输,该功能与主机同步。
对于从设备到可分页或固定主机内存的传输,该功能仅在副本完成后返回。
对于从设备内存到设备内存的传输,不执行主机端同步。
对于从任何主机内存到任何主机内存的传输,该功能与主机完全同步。