在调试和发布模式之间切换时,此代码在MSVS 2012,Windows 7中生成不同的值:
#include <iostream>
using namespace std;
int A[20000];
int main() {
int shift = 0;
int Period = 30;
//Fill array
for(int i = 0; i < 20000; i++) {
A[i] = i * 2 + 123;
}
int sumTotal = 0;
int sum = 0;
for(int bars = Period + 10; bars < 1000; bars++) {
sum = 0;
for(int i = 0; i< Period; i++) {
sum += A[bars - i];
}
sumTotal += sum;
}
cout << sumTotal << endl;
}
你能复制还是找到原因?我一直在测试项目属性的各种设置。
/GS /GL /analyze- /W3 /Gy /Zc:wchar_t /I"C:\Program Files (x86)\Visual Leak Detector\include" /Z7 /Gm- /O2 /Fd"Release\vc110.pdb" /fp:precise /D "WIN32" /D "NDEBUG" /D "_CONSOLE" /D "_UNICODE" /D "UNICODE" /errorReport:prompt /WX- /Zc:forScope /Gd /Oy- /Oi /MD /Fa"Release\" /EHsc /nologo /Fo"Release\" /Fp"Release\Testing.pch"
答案 0 :(得分:18)
我使用VS2012 C编译器测试了代码的“简化版”
int main()
{
int A[12] = { 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 };
int sum = 0;
int i;
for (i = 0; i < 12; ++i)
sum += A[11 - i];
printf("%d\n", sum);
return 0;
}
我在x64模式下编译了发布配置,针对速度进行了优化。该错误仍然存在,但根据其他优化和代码生成设置,它会以不同方式显示出来。一个版本的代码生成“随机”结果,而另一个版本始终生成8
作为总和(而不是正确的12
)。
这就是生成的代码对于始终生成8
000000013FC81DF0 mov rax,rsp
000000013FC81DF3 sub rsp,68h
000000013FC81DF7 movd xmm1,dword ptr [rax-18h]
000000013FC81DFC movd xmm2,dword ptr [rax-10h]
000000013FC81E01 movd xmm5,dword ptr [rax-0Ch]
000000013FC81E06 xorps xmm0,xmm0
000000013FC81E09 xorps xmm3,xmm3
for (i = 0; i < 12; ++i)
000000013FC81E0C xor ecx,ecx
000000013FC81E0E mov dword ptr [rax-48h],1
000000013FC81E15 mov dword ptr [rax-44h],1
000000013FC81E1C mov dword ptr [rax-40h],1
000000013FC81E23 punpckldq xmm2,xmm1
000000013FC81E27 mov dword ptr [rax-3Ch],1
000000013FC81E2E mov dword ptr [rax-38h],1
000000013FC81E35 mov dword ptr [rax-34h],1
{
sum += A[11 - i];
000000013FC81E3C movdqa xmm4,xmmword ptr [__xmm@00000001000000010000000100000001 (013FC83360h)]
000000013FC81E44 paddd xmm4,xmm0
000000013FC81E48 movd xmm0,dword ptr [rax-14h]
000000013FC81E4D mov dword ptr [rax-30h],1
000000013FC81E54 mov dword ptr [rax-2Ch],1
000000013FC81E5B mov dword ptr [rax-28h],1
000000013FC81E62 mov dword ptr [rax-24h],1
000000013FC81E69 punpckldq xmm5,xmm0
000000013FC81E6D punpckldq xmm5,xmm2
000000013FC81E71 paddd xmm5,xmm3
000000013FC81E75 paddd xmm5,xmm4
000000013FC81E79 mov dword ptr [rax-20h],1
000000013FC81E80 mov dword ptr [rax-1Ch],1
000000013FC81E87 mov r8d,ecx
000000013FC81E8A movdqa xmm0,xmm5
000000013FC81E8E psrldq xmm0,8
000000013FC81E93 paddd xmm5,xmm0
000000013FC81E97 movdqa xmm0,xmm5
000000013FC81E9B lea rax,[rax-40h]
000000013FC81E9F mov r9d,2
000000013FC81EA5 psrldq xmm0,4
000000013FC81EAA paddd xmm5,xmm0
000000013FC81EAE movd edx,xmm5
000000013FC81EB2 nop word ptr [rax+rax]
{
sum += A[11 - i];
000000013FC81EC0 add ecx,dword ptr [rax+4]
000000013FC81EC3 add r8d,dword ptr [rax]
000000013FC81EC6 lea rax,[rax-8]
000000013FC81ECA dec r9
000000013FC81ECD jne main+0D0h (013FC81EC0h)
}
printf("%d\n", sum);
000000013FC81ECF lea eax,[r8+rcx]
000000013FC81ED3 lea rcx,[__security_cookie_complement+8h (013FC84040h)]
000000013FC81EDA add edx,eax
000000013FC81EDC call qword ptr [__imp_printf (013FC83140h)]
return 0;
000000013FC81EE2 xor eax,eax
}
000000013FC81EE4 add rsp,68h
000000013FC81EE8 ret
代码生成器和优化器遗留了许多奇怪的,看似不必要的mumbo-jumbo,但是这段代码的功能可以简要描述如下。
有两种独立的算法用于产生最终总和,这显然应该处理阵列的不同部分。我猜两个处理流程(非SSE和SSE)用于通过指令流水线来促进并行性。
一种算法是一个简单的循环,它对数组元素求和,每次迭代处理两个元素。它可以从上面的“交错”代码中提取如下
; Initialization
000000013F1E1E0C xor ecx,ecx ; ecx - odd element sum
000000013F1E1E87 mov r8d,ecx ; r8 - even element sum
000000013F1E1E9B lea rax,[rax-40h] ; start from i = 2
000000013F1E1E9F mov r9d,2 ; do 2 iterations
; The cycle
000000013F1E1EC0 add ecx,dword ptr [rax+4] ; ecx += A[i + 1]
000000013F1E1EC3 add r8d,dword ptr [rax] ; r8d += A[i]
000000013F1E1EC6 lea rax,[rax-8] ; i -= 2
000000013F1E1ECA dec r9
000000013F1E1ECD jne main+0D0h (013F1E1EC0h) ; loop again if r9 is not zero
此算法开始添加来自地址rax - 40h
的元素,在我的实验中它等于&A[2]
,并使两个迭代向后跳过两个元素。这会在寄存器A[0]
中累加A[2]
和r8
的总和,并在寄存器A[1]
中累加A[3]
和ecx
的总和。因此,算法的这一部分处理数组的4个元素,并在2
和r8
中正确生成值ecx
。
算法的另一部分是使用SSE指令编写的,显然负责对数组的剩余部分求和。它可以从代码中提取如下
; Initially xmm5 is zero
000000013F1E1E3C movdqa xmm4,xmmword ptr [__xmm@00000001000000010000000100000001 (013F1E3360h)]
000000013F1E1E75 paddd xmm5,xmm4
000000013F1E1E8A movdqa xmm0,xmm5 ; copy
000000013F1E1E8E psrldq xmm0,8 ; shift
000000013F1E1E93 paddd xmm5,xmm0 ; and add
000000013F1E1E8A movdqa xmm0,xmm5 ; copy
000000013F1E1E8E psrldq xmm0,4 ; shift
000000013F1E1E93 paddd xmm5,xmm0 ; and add
000000013F1E1EAE movd edx,xmm5 ; edx - the sum
该部分使用的通用算法很简单:它将值0x00000001000000010000000100000001
置于128位寄存器xmm5
中,然后将其向右移动8个字节(0x00000000000000000000000100000001
)并添加它到原始值,产生0x00000001000000010000000200000002
。这再次向右移动4个字节(0x00000000000000010000000100000002
)并再次添加到先前的值,产生0x00000001000000020000000300000004
。 0x00000004
的最后一个32位字xmm5
作为结果并放入寄存器edx
。因此,该算法产生4
作为其最终结果。很明显,该算法只是在128位寄存器中执行连续32位字的“并行”加法。注意,顺便说一下,这个算法甚至没有尝试访问A
,它开始从编译器/优化器产生的嵌入常量求和。
现在,最后将r8 + ecx + edx
的值报告为最终总和。显然,这只是8
,而不是正确的12
。看起来这两种算法中的一种忘记了它的一些工作。我不知道哪一个,但从丰富的“冗余”指令判断,它看起来是SSE算法应该在8
而不是edx
中生成4
。一个可疑的指令是这个
000000013FC81E71 paddd xmm5,xmm3
此时xmm3
总是包含零。因此,该指令看起来完全冗余且不必要。但是如果xmm3
实际上包含另一个“魔术”常量,代表数组的另外4个元素(就像xmm4
那样),那么算法将正常工作并产生适当的总和。
如果对数组元素使用不同的初始值
int A[12] = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 };
可以清楚地看到,第一个(非SSE)算法成功地对1, 2, 3, 4
求和,而第二个(SSE)算法求和9, 10, 11, 12
。 5, 6, 7, 8
仍被排除在考虑范围之外,导致52
作为最终总和,而不是正确的78
。
这绝对是编译器/优化器的错误。
<强> P.S。导入到VS2013 Update 2中的相同设置的相同项目似乎没有受到此错误的影响。
答案 1 :(得分:15)
我相信你在优化器中发现了一个错误。您可以通过禁用优化或添加额外的代码(可以在最里面进行优化(例如cout << "hi"
)来获得发布版本以提供与调试版本相同(正确)的输出for
循环(这可能会阻止任何优化被错误地执行,否则)。我建议将其报告给微软。
更新:Microsoft confirms这是与自动矢量化相关的错误,并且已在VS2013更新2中修复。其他版本的解决方法是通过在循环前加#pragma loop(no_vector)
来禁用矢量化
此外,他们描述了两种可以触发bug的不同循环结构。我引用它们来说:
有两种情况可以解决问题:
1)正如用户burzvingion所提到的,循环得到了矢量化 形式:
for(int i = 0; ...){sum = A [...] - sum; }
2)得到形式矢量化的循环:
for(int i = 0; ...){sum = sum + A [ - i]; }
他们还提供了以下有关查找易受攻击代码的建议:
如果您正在查看源代码以尝试查找这些内容 例如,我建议首先投掷/ Qvec-report:1来查找全部 得到矢量化的循环,并从那里开始。解决方法 错误,将#pragma loop(no_vector)放在for循环之上。
答案 2 :(得分:5)
产生优化错误的代码可以简化为以下内容:
#include <iostream>
using namespace std;
#define SIZE 12
int main()
{
int A[SIZE] = {0};
int sum = 0;
for (int i=0; i<SIZE; i++)
sum += A[SIZE-1-i];
cout << sum << endl;
return 0;
}
可以通过应用以下任何一项来删除优化错误:
SIZE
的定义更改为低于12 A[SIZE-1-i]
更改为A[SIZE-i-1]
cout << sum << endl
移至循环因此,为了诊断问题,我们可以简单地应用其中一个更改,然后比较更改前代码的反汇编和更改后代码的反汇编。
答案 3 :(得分:4)
我比较了两种情况的asm代码(在VC ++ 2013 express中),在发布版本中,for循环版本构建中的asm代码
for (int i = 0; i< Period; i++)
在下面,它与调试版本中的内容非常不同
$LL6@main:
; 23 : sum = 0;
; 24 : for (int i = 0; i< Period; i++){
xorps xmm5, xmm5
lea eax, DWORD PTR [edi+88]
xorps xmm4, xmm4
mov ecx, 3
npad 2
$LL3@main:
; 25 : //cout << "hi";
; 26 : sum += A[bars - i];
movd xmm2, DWORD PTR [eax-4]
lea eax, DWORD PTR [eax-32]
movd xmm0, DWORD PTR [eax+32]
movd xmm1, DWORD PTR [eax+36]
movd xmm3, DWORD PTR [eax+40]
punpckldq xmm3, xmm0
movd xmm0, DWORD PTR [eax+48]
punpckldq xmm1, xmm2
movd xmm2, DWORD PTR [eax+44]
punpckldq xmm3, xmm1
movd xmm1, DWORD PTR [eax+52]
paddd xmm5, xmm3
movd xmm3, DWORD PTR [eax+56]
punpckldq xmm3, xmm0
punpckldq xmm1, xmm2
punpckldq xmm3, xmm1
paddd xmm4, xmm3
dec ecx
jne SHORT $LL3@main
; 23 : sum = 0;
; 24 : for (int i = 0; i< Period; i++){
paddd xmm4, xmm5
xor edx, edx
movdqa xmm0, xmm4
mov eax, edi
psrldq xmm0, 8
mov esi, 3
paddd xmm4, xmm0
movdqa xmm0, xmm4
psrldq xmm0, 4
paddd xmm4, xmm0
movd ebx, xmm4
npad 7
$LL30@main:
; 25 : //cout << "hi";
; 26 : sum += A[bars - i];
add ecx, DWORD PTR [eax]
lea eax, DWORD PTR [eax-8]
add edx, DWORD PTR [eax+4]
dec esi
jne SHORT $LL30@main
; 27 :
}
尽可能从asm代码中使用SSE指令。所以我在VC ++中检查了compiler options的SSE指令,然后指定了/ arch:IA32来禁止在发布版本中为x86处理器生成SSE和SSE2指令,然后我得到与调试版本相同的结果。 / p>
我不熟悉SSE,我希望有人可以根据我的发现解释更多。