OpenCV:C ++和C性能比较

时间:2012-07-07 15:43:16

标签: c++ c performance opencv

现在我正在使用OpenCV API(C++)开发一些应用程序。此应用程序使用视频进行处理。

在电脑上一切都很快。今天我决定在Android上移植这个应用程序(将相机用作视频输入)。幸运的是,有适用于Android的OpenCV,所以我只是将我的本机代码添加到Android应用程序示例中。一切都很好,除了性能。我对我的应用程序进行了基准测试,发现该应用程序的工作速度为4-5 fps,实际上是不可接受的(我的设备有单一的1ghz处理器) - 我希望它能以大约10 fps的速度工作。

是否可以在C上完全重写我的应用程序?我知道使用std::vector这样的东西对于开发人员来说非常舒服,但我并不关心它。

OpenCV's C接口似乎与C++接口具有相同的功能/方法。

我用Google搜索了这个问题,但没有发现任何内容。

感谢您的任何建议。

7 个答案:

答案 0 :(得分:56)

我在Android和优化方面做了很多工作(我写了一个视频处理应用程序,在4ms内处理一个帧)所以我希望我会给你一些相关的答案。

OpenCV中的C和C ++接口没有太大区别。有些代码是用C语言编写的,有一个C ++包装器,有些反之亦然。两者之间的任何显着差异(由Shervin Emami测量)都是回归,错误修复或质量改进。你应该坚持使用最新的OpenCV版本。

为什么不重写?

你会花很多时间,你可以用得更好。 C接口很麻烦,引入错误或内存泄漏的可能性很高。在我看来,你应该避免它。

优化建议

A。启用优化功能。

编译器优化和缺少调试断言都会对运行时间产生很大影响。

B :了解您的应用。

首先在您的计算机上执行此操作,因为它更容易。使用visual studio profiler识别慢速部件。优化它们。永远不要优化,因为你觉得很慢,但因为你测量它。从最慢的功能开始,尽可能地优化它,然后慢一点。测量您的更改,以确保它确实更快。

C。专注于算法。

更快的算法可以提高数量级(100x)的性能。 C ++技巧可以为你提供2倍的性能提升。

经典技巧:

  • 将视频帧调整为较小。通常,您可以从200x300px图像中提取信息,而不是1024x768。第一个区域的面积小了10倍。

  • 使用更简单的操作而不是复杂的操作。使用整数而不是浮点数。永远不要在矩阵或执行数千次的double循环中使用for

  • 尽量少计算。您是否可以仅在图像的特定区域中跟踪对象,而不是对所有帧进行全部处理?你能在一个非常小的图像上进行粗略/近似检测,然后在全帧的ROI上进行细化吗?

D。在重要的地方使用C

在循环中,使用C风格而不是C ++可能是有意义的。指向数据矩阵或浮点数组的指针比mat.at或std :: vector<>快得多。通常瓶颈是嵌套循环。专注于它。替换vector<>没有意义。到处都是你的代码。

E。避免隐藏费用

一些OpenCV函数将数据转换为double,处理它,然后转换回输入格式。要小心它们,它们会破坏移动设备的性能。示例:变形,缩放,类型转换。此外,已知颜色空间转换是懒惰的。喜欢直接从原生YUV获得的灰度。

F。使用矢量化

ARM处理器使用名为NEON的技术实现矢量化。学会使用它。它很强大!

一个小例子:

float* a, *b, *c;
// init a and b to 1000001 elements
for(int i=0;i<1000001;i++)
    c[i] = a[i]*b[i];

可以改写如下。它更冗长,但速度更快。

float* a, *b, *c;
// init a and b to 1000001 elements
float32x4_t _a, _b, _c;
int i;
for(i=0;i<1000001;i+=4)
{  
    a_ = vld1q_f32( &a[i] ); // load 4 floats from a in a NEON register
    b_ = vld1q_f32( &b[i] );
    c_ = vmulq_f32(a_, b_); // perform 4 float multiplies in parrallel
    vst1q_f32( &c[i], c_); // store the four results in c
}
// the vector size is not always multiple of 4 or 8 or 16. 
// Process the remaining elements
for(;i<1000001;i++)
    c[i] = a[i]*b[i];

纯粹主义者say你必须用汇编语言写作,但对于一个有点令人生畏的普通程序员来说。我使用gcc intrinsics得到了很好的结果,就像上面的例子一样。

跳转启动的另一种方法是将OpenCV中手动编码的SSE优化代码转换为NEON。 SSE是Intel处理器中的NEON等价物,许多OpenCV功能使用它,如here。这是uchar矩阵的图像过滤代码(常规图像格式)。你不应该一个一个地盲目地转换指令,而是以它为例开始。

您可以在this blog和以下帖子中阅读有关NEON的更多信息。

G。注意图像捕捉

移动设备上的速度可能会非常慢。优化它是设备和操作系统特定的。

答案 1 :(得分:6)

在做出这样的决定之前,您应该分析您的代码以找到代码中的热点。如果没有这些信息,您为加快速度所做的任何更改都将是猜测。你试过这个Android NDK profiler?

吗?

答案 2 :(得分:4)

shervin imami在他的网站上进行了一些性能测试。您可以查看它以获得一些想法。

http://www.shervinemami.info/timingTests.html

希望它有所帮助。

(而且,如果你能在任何方面提高性能,那么如果你在某个地方分享自己的发现会很好。)

答案 3 :(得分:3)

我想这个问题需要制定为:C比C ++快吗?答案是否定的。两者都编译为本机机器语言,C ++的设计速度与C一样快 至于STL(特别是ISO标准)也被设计和注意它们与指针一样快+它们提供灵活性。 使用C的唯一原因是您的平台不支持C ++ 在我卑微的开放中,不要把所有东西都转换成C,因为你可能会获得几乎相同的性能。并尝试改进您的代码或使用opencv的其他功能来做你想要的。

不相信?然后编写一个简单的函数,一次在C中,一次在C ++中,然后以1亿次循环运行并自己测量时间。也许这有助于您做出正确的决定

答案 4 :(得分:3)

我从未在Android中使用过C或C ++。但是在PC中,你可以让C ++以与C代码一样快的速度运行(有时甚至更快)。大多数C ++专门设计用于允许更多功能,但不以牺牲速度为代价(模板在编译时解决)。大多数编译器都非常擅长优化代码,你的std :: vector调用将被内联,代码几乎与使用本机C数组相同。

我建议你寻找另一种改善表现的方法。也许Android中有一些多媒体硬件扩展,您可以访问并使用它们来优化代码。

答案 5 :(得分:3)

我在多次测试中注意到:

  1. C接口(IplImage)在直接访问像素而不是使用Mat.at(x,y)方法时快了很多倍,当我将C ++应用程序转换为C时,我的性能提高了3倍在我的blob检测程序中

  2. 当从外部应用程序(例如LabView)调用时,C ++接口在某些例程中崩溃,而在C中调用相同的例程时,它会起作用。例如FindContours和cvFindContours

  3. C与嵌入式设备的兼容性更高。但是,我还没有在这个领域做过任何事情。

答案 6 :(得分:1)

我在IOS设备上遇到类似问题,讨论Maximum speed from IOS/iPad/iPhone也包含一些适用于其他移动平台的提示。