Question

上述功能如何在cuda中执行操作。我们是否需要编写CudaMalloc（）或MemCopy（）以及内部调用所有这些。

我写了

nppiResizeSqrPixel_32f_C4R(&in[0],sizeofImage,StepSize,&out[0],StepSizeOutput,DestRoi,Xfactor,YFactor,NULL,NULL,16);

在这里＆＃39;在＆＃39;是具有输入图像的矢量和＆＃39; out＆＃39;是一个空的向量。但是在执行上述功能之后，输出矢量仍然是“＆＃39; 0＆＃39; 。你能指导我如何调整功能吗？

Answer 1

它对设备数据进行操作，因此您需要使用设备分配（例如cudaMalloc）并将数据复制到设备（例如cudaMemcpy）等。

usual place提供了有限数量的npp调用文档，CUDA sample codes演示了npp库调用的一些示例。

对于那些资源未解决的问题，您可能还需要查看intel ipp文档。在许多情况下，npp例程非常类似于intel ipp功能，因此您可以在那里获得一些见解。 Here是一个示例文档。

同时检查任何适当的CUDA或npp调用的返回值，您还可以使用cuda-memcheck运行代码以获取有关可能出错的提示。