标签: profiling opencl fft
我将OpenCL FFT代码的运行时间与cudaFFT进行比较。我的问题与COMPUTE_PROFILE环境变量有关。如果没有设置,我的执行时间为:
OpenCL:0.061086 s CuFFT:0.032407 s
显示cuFFT更快。只需设置COMPUTE_PROFILE = 1,执行时间为:
OpenCL:0.023524 s CuFFT:0.033270 s
显示OpenCL更快!!!我在两种情况下都比较了PTX代码,两种情况都没有区别。到底发生了什么?任何想法。