Question

所有

我有一个非常简单的C测试代码，使用英特尔编译器为浮点运算的大循环做一些计时，代码（test.c）如下：

#include <sys/time.h>
#include <time.h>
#include <stdlib.h>
#include <stdio.h>
#include <math.h>
#include <omp.h>

int main(char *argc, char **argv) {
      const long N = 1000000000;
      double t0, t1, t2, t3;
      double sum=0.0;
      clock_t start, end;
      struct timeval r_start, r_end;
      long i;
      gettimeofday(&r_start, NULL);
      start = clock();
      for (i=0;i<N;i++)
          sum += i*2.0+i/2.0; // doing some floating point operations
      end = clock();
      gettimeofday(&r_end, NULL);
      double cputime_elapsed_in_seconds = (end - start)/(double)CLOCKS_PER_SEC;
      double realtime_elapsed_in_seconds = ((r_end.tv_sec * 1000000 + r_end.tv_usec)
                - (r_start.tv_sec * 1000000 + r_start.tv_usec))/1000000.0;
      printf("cputime_elapsed_in_sec: %e\n", cputime_elapsed_in_seconds);
      printf("realtime_elapsed_in_sec: %e\n", realtime_elapsed_in_seconds);
      //printf("sum= %4.3e\n", sum);
      return 0;
}

然而，当我尝试使用Intel 13.0编译器编译并运行它时，似乎忽略了大循环并且执行导致零时序：

$ icc test.c
$ ./a.out
cputime_elapsed_in_sec: 0.000000e+00
realtime_elapsed_in_sec: 9.000000e-06

只有当我打印总和（取消注释第26行）时，才会实际执行循环：

$ icc test.c
$ ./a.out
cputime_elapsed_in_sec: 2.730000e+00
realtime_elapsed_in_sec: 2.736198e+00
sum= 1.250e+18

问题是如果我不打印总和值，为什么循环似乎没有被执行？

gcc-4.4.7编译器没有出现同样的问题，我想intel编译器可能已经做了一些优化，如果没有引用变量，循环可能会被忽略？

系统信息如下：

$ uname -a
Linux node001 2.6.32-642.11.1.el6.x86_64 #1 SMP Wed Oct 26 10:25:23 EDT 2016 x86_64 x86_64 x86_64 GNU/Linux
$ icc -v
icc version 13.0.0 (gcc version 4.4.7 compatibility)
$ gcc -v
Using built-in specs.
Target: x86_64-redhat-linux
Configured with: ../configure --prefix=/usr --mandir=/usr/share/man --infodir=/usr/share/info --with-bugurl=http://bugzilla.redhat.com/bugzilla --enable-bootstrap --enable-shared --enable-threads=posix --enable-checking=release --with-system-zlib --enable-__cxa_atexit --disable-libunwind-exceptions --enable-gnu-unique-object --enable-languages=c,c++,objc,obj-c++,java,fortran,ada --enable-java-awt=gtk --disable-dssi --with-java-home=/usr/lib/jvm/java-1.5.0-gcj-1.5.0.0/jre --enable-libgcj-multifile --enable-java-maintainer-mode --with-ecj-jar=/usr/share/java/eclipse-ecj.jar --disable-libjava-multilib --with-ppl --with-cloog --with-tune=generic --with-arch_32=i686 --build=x86_64-redhat-linux
Thread model: posix
gcc version 4.4.7 20120313 (Red Hat 4.4.7-17) (GCC)

感谢您的任何建议！

罗伊

Answer 1

由于您的看法，即打印终值减缓下来^（一），有＆＃39; s一个相当不错的机会，优化器是搞清楚你＆＃39;再没有真正的在您计算完毕后使用 sum进行任何操作，以便优化整个计算循环。

实际上，当我们测试我们大学收到的最新VAX 11/780机器（显示我的年龄）时，我实际上看到了类似的东西。由于完全相同的原因，它的速度提高了几千％，新的优化编译器决定实际上不需要循环。

确定，您必须检查装配输出。我相信可以icc使用-Fa <asmFileName>选项，然后检查您使用其名称代替<asmFileName>的文件来完成此操作。

^（a）我想到的另一种可能性似乎在这里打折。

考虑到i的范围是常数（基于N）并且计算否则涉及常数，可能是编译器本身已计算最终值的可能性编译它，导致一个简单的恒定加载操作。

我已经看到gcc在-O3＆＃34;疯狂＆＃34;做了这种事情。优化水平。

我对这种可能性进行了折扣，因为打印该值很可能不会影响此操作。

intel编译器忽略了大循环？

1 个答案: