应用错误收集

如何在TensorFlow框架中加速cpu和gpu之间的张量转换

时间：2018-10-28 01:01:23

标签： tensorflow

我使用cuda supoort从源代码构建了tensorflow。但是，在我的TitanX gpu上，大约需要3秒将64 * 128 * 38 * 38（NCHW）张量从gpu传输到cpu：

cudaMemcpy(cpu_data, gpu_data, cudaMemcpyDeviceToHost);

非常慢。我如何加快这种转变？

非常感谢。

0 个答案:

没有答案