我已经实现了一个用于搜索图像内部模式的软件。使用cvMatchTemplate,执行时间大约为10ms(因为我在120x160像素的搜索窗口中采用40x40的模式。图像为640x480,所以我不考虑整个图像。)
我通过使用gpu :: MatchTemplate实现了相同的算法,我期待着执行时间的改进。计算分数需要220ms。
发生了什么事?
感谢。
编辑:我测量了图像的加载时间,执行" .upload"需要1ms。功能,因为图像已经解压缩。不是相同的算法吗?
编辑:我使用CUDA和我自己的内核编写代码:它使用图像上的cuda函数执行FFT,并且算法的整个执行时间小于2毫秒,1024x1024图像和200x200的模式。 我使用thread_sync来测量exec。时间。