上述功能如何在cuda中执行操作。我们是否需要编写CudaMalloc()或MemCopy()以及内部调用所有这些。
我写了
nppiResizeSqrPixel_32f_C4R(&in[0],sizeofImage,StepSize,&out[0],StepSizeOutput,DestRoi,Xfactor,YFactor,NULL,NULL,16);
在这里'在'是具有输入图像的矢量和' out'是一个空的向量。但是在执行上述功能之后,输出矢量仍然是“' 0' 。你能指导我如何调整功能吗?
答案 0 :(得分:2)
它对设备数据进行操作,因此您需要使用设备分配(例如cudaMalloc
)并将数据复制到设备(例如cudaMemcpy
)等。
usual place提供了有限数量的npp调用文档,CUDA sample codes演示了npp库调用的一些示例。
对于那些资源未解决的问题,您可能还需要查看intel ipp文档。在许多情况下,npp例程非常类似于intel ipp功能,因此您可以在那里获得一些见解。 Here是一个示例文档。
同时检查任何适当的CUDA或npp调用的返回值,您还可以使用cuda-memcheck
运行代码以获取有关可能出错的提示。