标签: tensorflow
我使用cuda supoort从源代码构建了tensorflow。但是,在我的TitanX gpu上,大约需要3秒将64 * 128 * 38 * 38(NCHW)张量从gpu传输到cpu:
cudaMemcpy(cpu_data, gpu_data, cudaMemcpyDeviceToHost);
非常慢。我如何加快这种转变?
非常感谢。