导致退役指令增加的原因是什么?

时间:2014-04-11 18:33:12

标签: cpu-architecture cpu-cache instructions vtune loop-unrolling

我有一个496 * O(N ^ 3)循环。我正在执行阻塞优化技术,我一次操作2个图像而不是1个。在原始术语中,我正在展开外部循环。 (代码的非展开版本如下所示:)顺便说一句,我使用的是具有8个内核的Intel Xeon X5365机器,它具有3GHz时钟,1333MHz总线频率,共享8MB L2(每2个共享4 MB)核心),L1-I 32KB,L1-D 32KB。

for(imageNo =0; imageNo<496;imageNo++){
for (unsigned int k=0; k<256; k++)
{
double z = O_L + (double)k * R_L;
for (unsigned int j=0; j<256; j++)
{
    double y = O_L + (double)j * R_L;

    for (unsigned int i=0; i<256; i++)
    {
        double x[1] = {O_L + (double)i * R_L} ;             
        double w_n =  (A_n[2] * x[0] + A_n[5] * y + A_n[8] * z + A_n[11])  ;
        double u_n =  ((A_n[0] * x[0] + A_n[3] * y + A_n[6] * z + A_n[9] ) / w_n);
        double v_n =  ((A_n[1] * x[0] + A_n[4] * y + A_n[7] * z + A_n[10]) / w_n);                      

        for(int loop=0; loop<1;loop++)
        {
            px_x[loop] = (int) floor(u_n);
            px_y[loop] = (int) floor(v_n);
            alpha[loop] = u_n - px_x[loop] ;
            beta[loop]  = v_n - px_y[loop] ;
        }
       if(px_y[0]>=0 && px_y[0]<(int)threadCopy[0].S_y)
            {
                if (px_x[0]>=0 && px_x[0]<(int)threadCopy[0].S_x )
                    ///////////////////(i,j) pixels ///////////////////////////////
                    pixel_1[0] = threadCopy[0].I_n[px_y[0] * threadCopy[0].S_x + px_x[0]];
                else
                    pixel_1[0] =0.0;                                    

                if (px_x[0]+1>=0 && px_x[0]+1<(int)threadCopy[0].S_x)
                    /////////////////// (i+1, j) pixels/////////////////////////
                    pixel_1[2] = threadCopy[0].I_n[px_y[0] * threadCopy[0].S_x + (px_x[0]+1)];
                else
                    pixel_1[2] = 0.0;       
            }
            else{
                pixel_1[0] =0.0;                                    
                pixel_1[2] =0.0;                                    
            }

            if( px_y[0]+1>=0 && px_y[0]+1<(int)threadCopy[0].S_y)
            {

                if (px_x[0]>=0 && px_x[0]<(int)threadCopy[0].S_x)
                    pixel_1[1] = threadCopy[0].I_n[(px_y[0]+1) * threadCopy[0].S_x + px_x[0]];
                else
                    pixel_1[1] = 0.0;


                if (px_x[0]+1>=0 && px_x[0]+1<(int)threadCopy[0].S_x)
                    pixel_1[3] = threadCopy[0].I_n[(px_y[0]+1) * threadCopy[0].S_x + (px_x[0]+1)];
                else 
                    pixel_1[3] = 0.0;
            }
            else{
                pixel_1[1] = 0.0;
                pixel_1[3] = 0.0;
            }

                pix_1 = (1.0 - alpha[0]) * (1.0 - beta[0]) * pixel_1[0] + (1.0 - alpha[0]) * beta[0]  * pixel_1[1]
                +  alpha[0]  * (1.0 - beta[0]) * pixel_1[2]   +  alpha[0]  *  beta[0]  * pixel_1[3];                    

            f_L[k * L * L + j * L + i] += (float)(1.0 / (w_n * w_n) * pix_1);
}

}
}

我使用英特尔Vtune-2013(使用从gcc-4.1创建的二进制文件)对结果进行了分析,我可以看到内存带宽使用率减少了40%,这是因为每次迭代都会处理2个图像。(f_L存储操作导致每个体素的8个字节的流量。这意味着公交车周期减少了11.7%!此外,由于内部循环中块大小增加,资源停顿减少了25.5%。这2个响应时间减少了18%。 神秘的问题是,为什么教学退休增加了7.9%? (这导致响应时间增加6.51%) - 我可能的原因是: 1.由于分块指令的数量在块内增加(并且核心架构有8位全局历史),退役分支指令增加了2.5%(尽管,错误预测保持不变!我知道,闻起来很腥!!!)。但我仍然缺少5.4%的答案!任何人都可以向我揭开光明的方向吗?我完全没有选择,也没办法思考。非常感谢!!

0 个答案:

没有答案