删除代码时,为什么循环速度较慢

时间:2011-04-13 15:18:56

标签: c gcc

当我从循环中删除测试计算最小值和最大值时,执行时间实际上比测试时长。怎么可能?

编辑: 运行更多测试后,似乎运行时不是常量,即相同的代码 可以在9秒或13秒内运行....所以这只是一个可重复的巧合。可以重复,直到你做了足够的测试......

一些细节:

  • 最小最大测试的执行时间:9秒
  • 没有最大最大测试的执行时间:13秒
  • CFLAGS=-Wall -O2 -fPIC -g
  • gcc 4.4.3 32位 现在用代码
  • 表示要删除的部分

有些猜测: 糟糕的缓存交互?

void    FillFullValues(void)
{
    int i,j,k;
    double  X,Y,Z;
    double  p,q,r,p1,q1,r1;
    double  Ls,as,bs;
    unsigned long t1, t2;

    t1 = GET_TICK_COUNT();  
    MinLs = Minas = Minbs = 1000000.0;
    MaxLs = Maxas = Maxbs = 0.0;

    for (i=0;i<256;i++)
    {
        for (j=0;j<256;j++)
        {
            for (k=0;k<256;k++)
            {
                X = 0.4124*CielabValues[i] + 0.3576*CielabValues[j] + 0.1805*CielabValues[k];
                Y = 0.2126*CielabValues[i] + 0.7152*CielabValues[j] + 0.0722*CielabValues[k];
                Z = 0.0193*CielabValues[i] + 0.1192*CielabValues[j] + 0.9505*CielabValues[k];

                p = X * InvXn;
                q = Y;
                r = Z * InvZn;

                if (q>0.008856)
                {
                    Ls = 116*pow(q,third)-16;
                }
                else
                {
                    Ls = 903.3*q;
                }

                if (q<=0.008856)
                {
                    q1 = 7.787*q+seiz;
                }
                else
                {
                    q1 = pow(q,third);
                }

                if (p<=0.008856)
                {
                    p1 = 7.787*p+seiz;
                }
                else
                {
                    p1 = pow(p,third);
                }

                if (r<=0.008856)
                {
                    r1 = 7.787*r+seiz;
                }
                else
                {
                    r1 = pow(r,third);
                }

                as = 500*(p1-q1);
                bs = 200*(q1-r1);

                //
                // cast on short int for reducing array size
                // 
                FullValuesLs[i][j][k] = (char) (Ls);
                FullValuesas[i][j][k] = (char) (as);
                FullValuesbs[i][j][k] = (char) (bs);

                            //// Remove this and get slower code    
                if (MaxLs<Ls)
                    MaxLs = Ls;
                if ((abs(Ls)<MinLs) && (abs(Ls)>0))
                    MinLs = Ls;

                if (Maxas<as)
                    Maxas = as;
                if ((abs(as)<Minas) && (abs(as)>0))
                    Minas = as;

                if (Maxbs<bs)
                    Maxbs = bs;
                if ((abs(bs)<Minbs) && (abs(bs)>0))
                    Minbs = bs;
                            //// End of Remove

            }
        }
    }

    TRACE(_T("LMax = %f LMin = %f\n"),(MaxLs),(MinLs));
    TRACE(_T("aMax = %f aMin = %f\n"),(Maxas),(Minas));
    TRACE(_T("bMax = %f bMin = %f\n"),(Maxbs),(Minbs));
    t2 = GET_TICK_COUNT();
    TRACE(_T("WhiteBalance init : %lu ms\n"), t2 - t1); 
}

2 个答案:

答案 0 :(得分:2)

我认为编译器正在尝试展开内部循环,因为您正在删除迭代之间的依赖关系。但不知何故,这对你的情况没有帮助。也许是因为循环太大而且使用了太多的寄存器才能展开。

尝试关闭展开并再次发布结果。

如果是这种情况,我建议您向gcc提交性能问题。

PS。我认为您可以合并if (q>0.008856)if (q<=0.008856)

答案 1 :(得分:1)

也许是缓存,也许是展开问题,只有一种方法可以解决这个问题:查看生成的代码(例如,使用-S选项)。也许你可以在比较它们时发布/或发现差异。

编辑:正如你现在澄清的那样,这只是我只能推荐(或更好的命令;-)你的测量,当你想得到运行时数时:总是将它放入某个循环并对其进行平均。最好在程序之外(在shell脚本中)执行此操作,因此您的缓存尚未填充正确的数据。