标签: opencl gpu gpgpu amd
我在GPU上的opencl上实现了一些图像处理。在主机程序上我启动了这个内核4次,总时间约为13毫秒(在AMD分析器上),这是好结果,我认为,但如果我通过QueryPerformanceTimer测量主机上的内核执行时间,它显示大约26毫秒。 clEnqueueNDRangeKernel执行时间小于1毫秒。 26-13毫秒在哪里?如何解决?我使用AMD SDK 3.0在GPU 1:AMD Radeon HD 6900系列上推出它。如果我启动内核一次,但在内核中添加4次循环结果是相同的。