据我所知,“cudaHostAlloc”分配的固定内存可以比“malloc”内存更有效地传输到设备。但是,我认为“cudaHostAlloc”只能由cuda编译器编译。我的方案是使用没有cuda编译器的cublas API,看起来cublas不提供手册中固定内存分配的功能,或者我可能会错过一些东西......
答案 0 :(得分:3)
cudaHostAlloc()
在CUDA Runtime API中实现。您不需要使用nvcc编译来使用CUDA API调用,您只需包含相应的标头(例如cuda_runtime_api.h)并链接到运行时库(cudart)。