我写了很多矢量化循环,所以有一个常见的习语是
volatile int dummy[1<<10];
for (int64_t i = 0; i + 16 <= argc; i+= 16) // process all elements with whole vector
{
int x = dummy[i];
}
// handle remainder (hopefully with SIMD too)
但是生成的机器代码还有1个指令(使用gcc 4.9)
.L3:
leaq -16(%rax), %rdx
addq $16, %rax
cmpq %rcx, %rax
movl -120(%rsp,%rdx,4), %edx
jbe .L3
如果我将代码更改为for (int64_t i = 0; i <= argc - 16; i+= 16)
,那么&#34;额外&#34;
指示消失了:
.L2:
movl -120(%rsp,%rax,4), %ecx
addq $16, %rax
cmpq %rdx, %rax
jbe .L2
但为什么不同呢?我想也许这是由于循环不变量,但是太模糊了。然后我注意到在5指令的情况下,增量在加载之前完成,由于x86的破坏性2操作数指令,这将需要额外的mov。 因此,另一种解释可能是它为一条额外的指令交易指令并行性。
虽然看起来几乎没有任何性能差异,但有人可以解释这个谜(最好是谁知道编译器转换)?
理想情况下,我想保留i + 16&lt; =大小形式,因为它具有更直观的含义(向量的最后一个元素不会超出范围)
答案 0 :(得分:8)
如果argc
低于-2147483632且i
低于2147483632,则表达式i+16 <= argc
将需要产生算术正确的结果,而表达式i<argc-16
} 不会。在角落情况下给出算术正确结果的需要阻止编译器优化前一个表达式以匹配后者。