如何在TensorFlow框架中加速cpu和gpu之间的张量转换

时间:2018-10-28 01:01:23

标签: tensorflow

我使用cuda supoort从源代码构建了tensorflow。但是,在我的TitanX gpu上,大约需要3秒将64 * 128 * 38 * 38(NCHW)张量从gpu传输到cpu:

cudaMemcpy(cpu_data, gpu_data, cudaMemcpyDeviceToHost);

非常慢。我如何加快这种转变?

非常感谢。

0 个答案:

没有答案