Question

我最近开始研究OpenMP，因为我将研究一些计算量很大的图像分析项目。我使用的是带有Intel i7（8核）和mingw64 gcc 4.8.1的Windows 7。我在Code :: Blocks中编码，然后设置所有内容以便编译和运行它。在我的代码中的几个部分，我将做一些像素方式的操作，我认为这将是并行处理的良好候选。令我惊讶的是，事实证明，顺序比并行处理更快。我为32位和64位以及两台独立的计算机尝试了不同版本的gcc（4.7 - 4.8），但我总是遇到相同的性能问题。然后我试着用我在这两台计算机中的一台上的旧Visual Studio 2008运行它，我的性能提升了。因此，我的问题是 - 为什么我无法使用gcc看到相同的效果。我有什么不对的吗？

这是一个最低限度的工作示例。

#include <omp.h>
#include <cstdlib>
#include <iostream>

int main(int argc, char * argv[])
{
   /* process a stack of images - set the number to 1000 for testing */
   int imgStack = 1000;

   double start_t = omp_get_wtime();
   for (int img = 0; img < imgStack; img++)
   {
      omp_set_num_threads(8);
      #pragma omp parallel for default(none)
      for (int y = 0; y < 1000000000; y++) /* increased the number of pixels to make it worthwhile and to see a difference*/
      {
         for (int x = 0; x < 1000000000; x++)
         {
            unsigned char pixel[4];
            pixel[0] = 1;
            pixel[1] = 2;
            pixel[2] = 3;
            pixel[3] = 4;

            /* here I would do much more but removed it for testing purposes */

         }
      }
   }
   double end_t = (omp_get_wtime() - start_t) * 1000.0;
   std::cout << end_t << "ms" << std::endl;

   return 0;
}

在建筑日志中，我有以下

x86_64-w64-mingw32-g++.exe -Wall -O2 -fopenmp -c C:\Code\omptest\main.cpp -o obj\Release\main.o
x86_64-w64-mingw32-g++.exe -o bin\Release\omptest.exe obj\Release\main.o -s C:\mingw-builds\x64-4.8.1-posix-seh-rev5\mingw64\bin\libgomp-1.dll

输出如下

for 1 thread :   43ms
for 8 threads:  594ms

我还试图在编译器进行一些循环展开的情况下关闭优化（-O0）。我读到了关于错误共享的问题，因此我将循环中的任何变量保密，以确保这不是问题。我不善于分析，所以我无法分辨下面发生了什么，例如导致所有线程等待的内部锁。

我无法弄清楚我在这里做错了什么。

- 编辑 -

感谢大家。在我的真实代码中，我有一个包含2000个图像的图像堆栈，每个图像大小为2000x2000像素。我试图简化这个例子，这样每个人都可以轻松地重现这个问题，在这个问题中，我将其简化得过多，导致其他问题。你们都完全正确。在我的真实代码中，我使用Qt打开和显示我的图像，以及我自己的图像管理器，它加载并迭代堆栈，一次给我一个图像。我认为提供整个样本会过多而且复杂化（即没有提供最小的工作示例）。

我将所有变量（imageHeight，imageWidth等）作为const传递给我的图像指针作为共享。最初那是一个指向QImage的指针。在循环中，我使用qtimg-＆gt; setPixel（...）设置最终像素值，似乎MSVC编译器与gcc编译器的处理方式不同。最后，我用一个指向unsigned char数组的指针替换了QImage指针，这使我的性能提升了。

@Hristo Iliev：感谢您提供有关线程池的信息。知道这真的很好。

Answer 1

鉴于代码示例，我无法重复您的结果。您必须显示您的实际堆栈大小和图像大小。因为如果使用1个线程只能在5ms内完成工作，那么多线程不会使它更快。启动多个线程会带来很大的开销，尤其是当您启动imgStack次时。

Answer 2

由于pixels仅被分配给然后从未使用过，整个内部循环被GCC的优化器-O2完全删除，因为可以通过启用树转储轻松验证：

; Function <built-in> (main._omp_fn.0, funcdef_no=1036, decl_uid=21657, cgraph_uid=256)

<built-in> (void * .omp_data_i)
{
<bb 2>:
  return;

}

您所做的就是有效地衡量OpenMP运行时开销。

使用-O0所有代码都保留在原位，运行时间与预期的线程数一致，但我怀疑您是否曾使用1000000000 x 1000000000图像进行过测试。

C ++ OpenMP和gcc 4.8.1 - 并行循环时的性能问题

2 个答案: