如果在编译时不知道循环的最后一个索引(以下示例中为a
和b
),编译器是否可以优化循环?
未优化:
int* arr = new int[a*b];
for (i = 0; i < a; ++i){
for(j = 0; j < b; ++j){
arr[i*b+j] *= 8;
}
}
//delete arr after done.
更优化:(假设a和b很大......)
int c = a*b;
int* arr = new int[c];
for (i = 0; i < c; ++i){
arr[c] *= 8;
}
//delete arr after done.
答案 0 :(得分:1)
是的,它可能可以,因为它的大小是恒定的并且不会在循环中发生变化。请阅读Optimize "for" loop了解更多信息。
FYI,在你的第一个例子中,这个:
arr[j*a+b] *= 8;
应该是这样的:
arr[j*a+i] *= 8;
答案 1 :(得分:1)
现代编译器肯定可以改变两个数组的顺序,以防止不必要的缓存未命中,来自:
for (i = 0; i < a; ++i){
for(j = 0; j < b; ++j){
arr[j*a+i] *= 8;
}
}
到此:
for(j = 0; j < b; ++j){
for (i = 0; i < a; ++i){
arr[j*a+i] *= 8;
}
}
在此优化之后,这两个示例(与手动优化相比)在性能上不应有明显差异。
答案 2 :(得分:1)
如果将数组视为线性空间,即使在编译时不知道扩展区,gcc(以及可能是其他的)也会进行优化。
此代码:
void by8(int* arr, int a, int b)
{
auto extent = a * b;
for (int i = 0; i < extent; ++i)
{
arr[i] *= 8;
}
}
编译到这(注意循环的内部部分是如何矢量化的)
by8(int*, int, int):
imull %esi, %edx
testl %edx, %edx
jle .L23
movq %rdi, %rax
andl $31, %eax
shrq $2, %rax
negq %rax
andl $7, %eax
cmpl %edx, %eax
cmova %edx, %eax
cmpl $8, %edx
jg .L26
movl %edx, %eax
.L3:
sall $3, (%rdi)
cmpl $1, %eax
je .L15
sall $3, 4(%rdi)
cmpl $2, %eax
je .L16
sall $3, 8(%rdi)
cmpl $3, %eax
je .L17
sall $3, 12(%rdi)
cmpl $4, %eax
je .L18
sall $3, 16(%rdi)
cmpl $5, %eax
je .L19
sall $3, 20(%rdi)
cmpl $6, %eax
je .L20
sall $3, 24(%rdi)
cmpl $7, %eax
je .L21
sall $3, 28(%rdi)
movl $8, %ecx
.L5:
cmpl %eax, %edx
je .L27
.L4:
leal -1(%rdx), %r8d
movl %edx, %r9d
movl %eax, %r10d
subl %eax, %r9d
subl %eax, %r8d
leal -8(%r9), %esi
shrl $3, %esi
addl $1, %esi
leal 0(,%rsi,8), %r11d
cmpl $6, %r8d
jbe .L7
leaq (%rdi,%r10,4), %r10
xorl %eax, %eax
xorl %r8d, %r8d
.L9:
vmovdqa (%r10,%rax), %ymm0
addl $1, %r8d
vpslld $3, %ymm0, %ymm0
vmovdqa %ymm0, (%r10,%rax)
addq $32, %rax
cmpl %r8d, %esi
ja .L9
addl %r11d, %ecx
cmpl %r11d, %r9d
je .L22
vzeroupper
.L7:
movslq %ecx, %rax
sall $3, (%rdi,%rax,4)
leal 1(%rcx), %eax
cmpl %eax, %edx
jle .L23
cltq
sall $3, (%rdi,%rax,4)
leal 2(%rcx), %eax
cmpl %eax, %edx
jle .L23
cltq
sall $3, (%rdi,%rax,4)
leal 3(%rcx), %eax
cmpl %eax, %edx
jle .L23
cltq
sall $3, (%rdi,%rax,4)
leal 4(%rcx), %eax
cmpl %eax, %edx
jle .L23
cltq
sall $3, (%rdi,%rax,4)
leal 5(%rcx), %eax
cmpl %eax, %edx
jle .L23
cltq
addl $6, %ecx
sall $3, (%rdi,%rax,4)
cmpl %ecx, %edx
jle .L28
movslq %ecx, %rcx
sall $3, (%rdi,%rcx,4)
ret
.L22:
vzeroupper
.L23:
ret
.L27:
ret
.L26:
testl %eax, %eax
jne .L3
xorl %ecx, %ecx
jmp .L4
.L28:
ret
.L21:
movl $7, %ecx
jmp .L5
.L15:
movl $1, %ecx
jmp .L5
.L16:
movl $2, %ecx
jmp .L5
.L17:
movl $3, %ecx
jmp .L5
.L18:
movl $4, %ecx
jmp .L5
.L19:
movl $5, %ecx
jmp .L5
.L20:
movl $6, %ecx
jmp .L5
编译器:带命令行选项的gcc 5.4:-std = c ++ 14 -O3 -march = native
答案 3 :(得分:1)
如果你使用的是Visual Studio编译器,你可以使用/ Qvec-report命令行参数,它会告诉你哪些循环没有被矢量化,并给你原因代码,说明它们不是
循环的矢量化(与展开不同)是编译器使用SIMD(SSE,SSE2,AVX)指令将循环分解为一系列并行执行的操作
https://msdn.microsoft.com/en-us/library/jj658585.aspx
gcc和clang可能具有相似的功能
答案 4 :(得分:0)
您始终可以展开for循环。即使您不知道它应该使用名为Duff's device
的技巧进行迭代的次数另请参阅stackoverflow上的说明:How does Duff's device work?
你可以有一个交错的开关和while循环,让while循环处理,比如一次4个项目。如果你想处理6个项目,你可以通过跳转到循环处理中的第二个项目来欺骗2 + 4 = 6个项目:
int n = 6;
int it = n / 4;
int check = 0;
switch (n % 4) {
case 0: do { check += 1;
case 3: check += 1;
case 2: check += 1;
case 1: check += 1;
} while (it--);
}
printf("processed %i items\n", check);