结合英特尔IPP和TBB

时间:2012-10-23 20:47:40

标签: multithreading tbb intel-ipp

我试图通过结合IPP和TBB来进一步改进我的图像大小调整算法。我可以完成这项任务的两种方式是:

  1. 使用不带TBB的IPP
  2. 在parallel_for循环中使用IPP和TBB
  3. 我的问题是我编写了应用程序,并得到了正确的结果。但令人惊讶的是,当它们组合时,我的计算时间会更长。为了避免混乱,我只在这里粘贴部分代码。但如果需要,我可以提供整个代码。对于第一种仅使用IPP的情况,代码如下:(算法的基础来自用于图像大小调整的英特尔TBB示例代码)

    ippiResizeSqrPixel_8u_C1R(src, srcSize, srcStep, srcRoi, dst, dstStep, dstRoi, 
    m_nzoom_x,m_nzoom_y,0, 0, interpolation, pBufferWhole);
    

    并且parallel_for循环如下所示:

    parallel_for(
        blocked_range<size_t>(0,CHUNK),
        [=](const blocked_range<size_t> &r){
            for (size_t i= r.begin(); i!= r.end(); i++){
                ippiResizeSqrPixel_8u_C1R(src+((int)(i*srcWidth*srcHeight)), srcSize, 
    srcStep, srcRoi, dst+((int)(i*dstWidth*dstHeight)), dstStep, dstRoi, 
    m_nzoom_x,m_nzoom_y,0, 0, interpolation, pBuffer);
            }
        }
    );
    

    srcdst是指向源图像和目标图像的指针。使用TBB时,图像被分区为CHUNKS个部分,parallel_for循环遍历所有CHUNKS,并使用IPP函数独立调整每个CHUNK的大小。修改dstHeightsrcHeightsrcRoidstRoi的值以适应图片的分区,src+((int)(i*srcWidth*srcHeight))dst+((int)(i*dstWidth*dstHeight))将指向源和目标图像中每个分区的开头。

    显然,IPP和TBB可以这种方式组合 - 因为我得到了正确的结果 - 但令我感到困惑的是,与单独使用IPP相比,计算时间在合并时会恶化。关于可能是什么原因的任何想法,或者我如何解决这个问题?

    谢谢!

2 个答案:

答案 0 :(得分:0)

在您的代码中,parallel_for中的每个并行化任务都包含多个ippiResizeSqrPixel个调用。 与仅调用一次的串行版本相比,这可能是无意义的开销,因为此类函数可能包含准备阶段(例如,设置内插系数表),并且它通常被设计为一次处理大内存块以提高运行时效率。 (但我不知道IPP究竟是如何做的。)

我建议您遵循并行结构:

parallel_for(
  // Range = src (or dst) height of image.
  blocked_range<size_t>(0, height),
  [=](const blocked_range<size_t> &r) {
    // 'r' = vertical range of image to process in this task.
    // You can calculate src/dst region from 'r' here,
    // and call ippiResizeSqrPixel once per task.
    ippiResizeSqrPixel_8u_C1R( ... );
  }
);

答案 1 :(得分:0)

事实证明,某些IPP功能会自动使用多线程。对于此类功能,使用TBB无法获得任何改进。显然ippiResizeSqrPixel_8u_C1R( ... )函数是其中一个函数。当我禁用所有核心而不是一个核心时,两个版本同样都很好。