应用错误收集

我正在使用caffe在Windows中编写c ++分类器。 Caffe使用GPU执行此任务，从文件或内存中获取图像。在我查看的所有样本中，图像都是由caffe内部发送到GPU的，但在我的应用程序中，我已经在GPU中使用了图像，因为我需要在GPU中使用CUDA进行一些预处理。

我的问题是，是否可以从cuda kernell或.cu文件中提取分类器直接从cuda内存获取图像？或者我应该将预处理后的图像复制到CPU中，然后将图像再次加载到GPU上进行分类。我觉得它应该是一种避免双重复制到GPU的方法，但是我找不到它。

似乎Nvidia TensorRT会管理这种情况，但它还没有用于Windows。