我正在对实时进纸执行图像稳定,以便在稳定图像上运行一些视觉算法(强调“实时”)。目前这个使用CPU实现的LK金字塔版本的过程几乎不够快,即使事先建造金字塔(参考图像和“之前的”特征只计算一次),但它需要缩放到处理大约四倍分辨率的图像,这使得它在当前实现中太慢。我认为我可能会尝试通过整合GPU来加快速度,因为OpenCV已经为支持CUDA的设备(cv :: gpu :: PyrLKOpticalFlow类)实现了相同的LK方法。我正在使用带有一组先前功能的:: sparse调用。
我的主要问题是窗口大小似乎有限制,而且我的太大了。限制发生在pyrlk.cpp文件中作为断言:
CV_Assert(patch.x > 0 && patch.x < 6 && patch.y > 0 && patch.y < 6);
如上面确定补丁尺寸:
void calcPatchSize(cv::Size winSize, dim3& block, dim3& patch)
{
if (winSize.width > 32 && winSize.width > 2 * winSize.height)
{
block.x = deviceSupports(FEATURE_SET_COMPUTE_12) ? 32 : 16;
block.y = 8;
}
else
{
block.x = 16;
block.y = deviceSupports(FEATURE_SET_COMPUTE_12) ? 16 : 8;
}
patch.x = (winSize.width + block.x - 1) / block.x;
patch.y = (winSize.height + block.y - 1) / block.y;
block.z = patch.z = 1;
}
我的问题是我需要一个大约80x80像素的窗口大小,这是A.为什么我要使用GPU加速和B.为什么这似乎在OpenCV中不起作用。 :)此外,对于较大分辨率的图像,此窗口大小将需要增长。
我不熟悉实际实现GPU加速,所以我想知道是否有人可以解释为什么OpenCV中存在这种限制,如果它是硬件或OpenCV实施所施加的真正限制,以及是否有办法工作周围。这似乎很奇怪,这将是硬件限制,因为这些是你想要使用GPU时的情况。我可以通过较小的搜索窗口获得合理的速度,但稳定性对于应用程序来说还不够好。
我需要这么大的搜索窗口大小,因为我正在计算第一个(参考)帧的运动。运动是周期性的,加上一些小的随机漂移,所以这种方法效果很好,但是当匹配特征距离大约30-40像素(原始分辨率)时,需要更多的空间来搜索周期的峰值。
这是在Linux上使用OpenCV版本2.4.10,从CUDA支持的源代码构建。
(这是http://answers.opencv.org/question/54579/window-size-limit-in-gpu-accelerated-lk-pyramid/的重新发布(有些修改),但似乎没有那么多活动,所以希望SO提供更好的讨论环境!)
答案 0 :(得分:3)
补丁大小作为模板参数传递给CUDA内核。
请参阅https://github.com/jet47/opencv/blob/master/modules/cudaoptflow/src/cuda/pyrlk.cu#L493调用代码:
static const func_t funcs[5][5] =
{
{sparse_caller<1, 1, 1>, sparse_caller<1, 2, 1>, sparse_caller<1, 3, 1>, sparse_caller<1, 4, 1>, sparse_caller<1, 5, 1>},
{sparse_caller<1, 1, 2>, sparse_caller<1, 2, 2>, sparse_caller<1, 3, 2>, sparse_caller<1, 4, 2>, sparse_caller<1, 5, 2>},
{sparse_caller<1, 1, 3>, sparse_caller<1, 2, 3>, sparse_caller<1, 3, 3>, sparse_caller<1, 4, 3>, sparse_caller<1, 5, 3>},
{sparse_caller<1, 1, 4>, sparse_caller<1, 2, 4>, sparse_caller<1, 3, 4>, sparse_caller<1, 4, 4>, sparse_caller<1, 5, 4>},
{sparse_caller<1, 1, 5>, sparse_caller<1, 2, 5>, sparse_caller<1, 3, 5>, sparse_caller<1, 4, 5>, sparse_caller<1, 5, 5>}
};
其中sparse_caller
被声明为:
template <int cn, int PATCH_X, int PATCH_Y>
void sparse_caller(int rows, int cols, const float2* prevPts, float2* nextPts,
uchar* status, float* err, int ptcount,
int level, dim3 block, cudaStream_t stream)
修补程序大小的限制是为了减少模板实例化的数量。您可以通过修改此代码并添加更多实例来增加此限制。