Caffe是一个深度学习库,也支持OpenCL。它允许一个人直接访问GPU数据指针,如果使用CUDA编译,则按如下方式将int传递给CUDA内核:
caffe::Blob<T>* topLayer ...
resizeKernel<<<numBlocks, threadsPerBlock>>>(top.at(0)->mutable_gpu_data())
template <typename T>
__global__ void resizeKernel(T* mutableGpuData){
}
现在,如果使用OpenCL编译Caffe,我们可以使用相同的API来访问GPU数据指针。所以我想问一下,如何将其转换为cl :: Buffer而不会产生任何内存成本?