cuFFT批量vs单变换

时间:2018-02-21 01:32:36

标签: openacc cufft

针对cuFFT的NVIDIA cuda文档称“这些批量转换的性能高于单个转换” (详情请见:http://docs.nvidia.com/cuda/cufft/index.html#ixzz57haP0Mtz 关注我们:Twitter上的@GPUComputing | Facebook上的NVIDIA) 但没有显示任何定量。有关加速程度的任何信息?从单个变换我的意思是在for循环中。

1 个答案:

答案 0 :(得分:1)

加速将取决于矩阵的大小,批次数和目标硬件(也是CUDA工具包版本)。如果你有一大批小型矩阵,你会看到更多的加速比其他情况。部分加速是避免启动开销,因此对于足够大的矩阵大小,与内核执行相比,启动开销很小,您将看不到那么多的加速。我相信对于非常小的矩阵,他们可以将几个批次打包在一起,并使用更多(内存)高效的设备功能。

我在四处询问是否有任何白皮书或其他已发布的报告。到目前为止,我还没有找到任何。