使用g ++ 5.3.1编译时,程序运行速度比使用g ++ 4.8.4编译的相同程序慢3倍

时间:2016-07-03 16:37:56

标签: c++ performance ubuntu gcc5

最近,我开始使用Ubuntu 16.04和g ++ 5.3.1并检查我的程序运行慢3倍。 在此之前,我使用过Ubuntu 14.04,g ++ 4.8.4。 我使用相同的命令构建它:CFLAGS = -std=c++11 -Wall -O3

我的程序包含循环,充满数学调用(sin,cos,exp)。 你可以找到它here

我尝试使用不同的优化标志(O0,O1,O2,O3,Ofast)进行编译,但在所有情况下都会重现问题(使用Ofast两种变体运行速度更快,但第一次运行速度慢3倍静止)。

在我的计划中,我使用libtinyxml-devlibgslcblas。但是它们在两种情况下都具有相同的版本,并且在性能方面没有任何重要的参与(根据代码和callgrind概要分析)。

我已经进行过分析,但它并没有让我知道它为什么会发生。 Kcachegrind comparison (left is slower)。 我只注意到现在该程序使用libm-2.23与使用Ubuntu 14.04的libm-2.19进行比较。

我的处理器是i7-5820,Haswell。

我不知道它变慢的原因。你有什么想法吗?

P.S。您可以在下面找到最耗时的功能:

void InclinedSum::prepare3D()
{
double buf1, buf2;
double sum_prev1 = 0.0, sum_prev2 = 0.0;
int break_idx1, break_idx2; 
int arr_idx;

for(int seg_idx = 0; seg_idx < props->K; seg_idx++)
{
    const Point& r = well->segs[seg_idx].r_bhp;

    for(int k = 0; k < props->K; k++)
    {
        arr_idx = seg_idx * props->K + k;
        F[arr_idx] = 0.0;

        break_idx2 = 0;

        for(int m = 1; m <= props->M; m++)
        {
            break_idx1 = 0;

            for(int l = 1; l <= props->L; l++)
            {
                buf1 = ((cos(M_PI * (double)(m) * well->segs[k].r1.x / props->sizes.x - M_PI * (double)(l) * well->segs[k].r1.z / props->sizes.z) -
                            cos(M_PI * (double)(m) * well->segs[k].r2.x / props->sizes.x - M_PI * (double)(l) * well->segs[k].r2.z / props->sizes.z)) /
                        ( M_PI * (double)(m) * tan(props->alpha) / props->sizes.x + M_PI * (double)(l) / props->sizes.z ) + 
                            (cos(M_PI * (double)(m) * well->segs[k].r1.x / props->sizes.x + M_PI * (double)(l) * well->segs[k].r1.z / props->sizes.z) -
                            cos(M_PI * (double)(m) * well->segs[k].r2.x / props->sizes.x + M_PI * (double)(l) * well->segs[k].r2.z / props->sizes.z)) /
                        ( M_PI * (double)(m) * tan(props->alpha) / props->sizes.x - M_PI * (double)(l) / props->sizes.z )
                            ) / 2.0;

                buf2 = sqrt((double)(m) * (double)(m) / props->sizes.x / props->sizes.x + (double)(l) * (double)(l) / props->sizes.z / props->sizes.z);

                for(int i = -props->I; i <= props->I; i++)
                {   

                    F[arr_idx] += buf1 / well->segs[k].length / buf2 *
                        ( exp(-M_PI * buf2 * fabs(r.y - props->r1.y + 2.0 * (double)(i) * props->sizes.y)) - 
                        exp(-M_PI * buf2 * fabs(r.y + props->r1.y + 2.0 * (double)(i) * props->sizes.y)) ) *
                        sin(M_PI * (double)(m) * r.x / props->sizes.x) * 
                        cos(M_PI * (double)(l) * r.z / props->sizes.z);
                }

                if( fabs(F[arr_idx] - sum_prev1) > F[arr_idx] * EQUALITY_TOLERANCE )
                {
                    sum_prev1 = F[arr_idx];
                    break_idx1 = 0;
                } else
                    break_idx1++;

                if(break_idx1 > 1)
                {
                    //std::cout << "l=" << l << std::endl;
                    break;
                }
            }

            if( fabs(F[arr_idx] - sum_prev2) > F[arr_idx] * EQUALITY_TOLERANCE )
            {
                sum_prev2 = F[arr_idx];
                break_idx2 = 0;
            } else
                break_idx2++;

            if(break_idx2 > 1)
            {
                std::cout << "m=" << m << std::endl;
                break;
            }
        }
    }
}
}

进一步调查。 我写了以下简单的程序:

#include <cmath>
#include <iostream>
#include <chrono>

#define CYCLE_NUM 1E+7

using namespace std;
using namespace std::chrono;

int main()
{
    double sum = 0.0;

    auto t1 = high_resolution_clock::now();
    for(int i = 1; i < CYCLE_NUM; i++)
    {
        sum += sin((double)(i)) / (double)(i);
    }
    auto t2 = high_resolution_clock::now();

    microseconds::rep t = duration_cast<microseconds>(t2-t1).count();

    cout << "sum = " << sum << endl;
    cout << "time = " << (double)(t) / 1.E+6 << endl;

    return 0;
}

我真的很想知道为什么这个简单的示例程序在g ++ 4.8.4 libc-2.19(libm-2.19)下比在g ++ 5.3.1 libc-2.23(libm-2.23)下快2.5。

编译命令是:

g++ -std=c++11 -O3 main.cpp -o sum

使用其他优化标记不会改变比率。

我如何理解谁,gcc或libc,减慢了程序的速度?

2 个答案:

答案 0 :(得分:4)

对于一个非常精确的答案,你可能需要一个libm维护者来查看你的问题。然而,这是我的看法 - 把它作为草稿,如果我找到别的东西,我会把它添加到这个答案。

首先,查看GCC在gcc 4.8.2gcc 5.3之间生成的asm。只有4个不同之处:

  • 在开头xorpd转换为pxor,对于相同的寄存器
  • 在从int转换为double(pxor xmm1, xmm1
  • 之前添加了cvtsi2sd
  • 在转化之前移动movsd
  • 在比较(addsd
  • 之前移动了添加(ucomisd

所有这些可能都不足以降低性能。拥有一个优秀的剖析器(例如英特尔)可以让我更具决定性,但我无法访问。

现在,依赖于sin,让我们看看发生了什么变化。问题是首先确定你使用的平台...... glibc的sysdeps中有17个不同的子文件夹(定义了sin),所以我去了x86_64

首先,处理器处理器功能的方式发生了变化,例如glibc/sysdeps/x86_64/fpu/multiarch/s_sin.c用于检查2.19中的FMA / AVX,但在2.23中它是在外部完成的。可能存在未正确报告功能的错误,导致未使用FMA或AVX。然而,我不认为这个假设是合理的。

其次,在.../x86_64/fpu/s_sinf.S中,唯一的修改(除了版权更新)改变了堆栈偏移,将其对齐为16个字节;对于sincos来说。不确定它会产生很大的不同。

然而,2.23为数学函数的矢量化版本添加了许多资源,有些使用AVX512 - 您的处理器可能不支持它,因为它真的是新的。也许libm尝试使用这样的扩展,并且因为你没有它们,所以回溯到泛型版本?

编辑:我尝试用gcc 4.8.5编译它,但是为此我需要重新编译glibc-2.19。目前我无法联系,因为:

/usr/lib/gcc/x86_64-linux-gnu/4.8/../../../x86_64-linux-gnu/libm.a(s_sin.o): in function « __cos »:
(.text+0x3542): undefined reference to « _dl_x86_cpu_features »
/usr/lib/gcc/x86_64-linux-gnu/4.8/../../../x86_64-linux-gnu/libm.a(s_sin.o): in function « __sin »:
(.text+0x3572): undefined reference to « _dl_x86_cpu_features »

我会尝试解决这个问题,但事先会注意到这个符号很可能是基于处理器选择正确的优化版本,这可能是性能损失的一部分。

答案 1 :(得分:1)

这是glibc中的一个错误,它影响版本2.23(在Ubuntu 16.04中使用)和2.24的早期版本(例如Fedora和Debian已经包含不再受影响的修补版本,Ubuntu 16.10和17.04还没有)。

减速源于SSE到AVX寄存器的转换惩罚。请在此处查看glibc错误报告:https://sourceware.org/bugzilla/show_bug.cgi?id=20495

Oleg Strikov在他的Ubuntu错误报告中写了一篇相当广泛的分析:https://bugs.launchpad.net/ubuntu/+source/glibc/+bug/1663280

没有补丁,有各种可能的解决方法:您可以静态编译问题(即添加-static),或者您可以通过在程序执行期间设置环境变量LD_BIND_NOW来禁用延迟绑定。再次,上面的错误报告中的更多细节。