C#/ .NET浮点运算在调试模式和发布模式之间的精度是否不同?
答案 0 :(得分:22)
他们确实可以是不同的。根据CLR ECMA规范:
浮点存储位置 数字(静态,数组元素和 类的字段)具有固定的大小。 支持的存储大小是 float32和float64。其他地方 (在评估堆栈上,作为 参数,返回类型和 局部变量)浮点数 数字用a表示 内部浮点类型。每个 这样的例子,名义上的类型 变量或表达式是R4或 R8,但它的值可以表示 内部有额外的范围 和/或精度。的大小 内部浮点表示 是依赖于实现的,可以有所不同, 至少应具有精确度 伟大的变量或 表达被表达。一个 隐式扩展转换为 float32的内部表示 或者执行float64 类型从存储加载。该 内部代表通常是 硬件的原生大小,或 如有效率所需 实施一项行动。
这基本上意味着以下比较可能相同也可能不相同:
class Foo
{
double _v = ...;
void Bar()
{
double v = _v;
if( v == _v )
{
// Code may or may not execute here.
// _v is 64-bit.
// v could be either 64-bit (debug) or 80-bit (release) or something else (future?).
}
}
}
带回家的消息:永远不要检查浮动值是否相等。
答案 1 :(得分:11)
这是一个有趣的问题,所以我做了一些实验。我用了这段代码:
static void Main (string [] args)
{
float
a = float.MaxValue / 3.0f,
b = a * a;
if (a * a < b)
{
Console.WriteLine ("Less");
}
else
{
Console.WriteLine ("GreaterEqual");
}
}
使用DevStudio 2005和.Net 2.我编译为调试和发布,并检查编译器的输出:
Release Debug
static void Main (string [] args) static void Main (string [] args)
{ {
00000000 push ebp
00000001 mov ebp,esp
00000003 push edi
00000004 push esi
00000005 push ebx
00000006 sub esp,3Ch
00000009 xor eax,eax
0000000b mov dword ptr [ebp-10h],eax
0000000e xor eax,eax
00000010 mov dword ptr [ebp-1Ch],eax
00000013 mov dword ptr [ebp-3Ch],ecx
00000016 cmp dword ptr ds:[00A2853Ch],0
0000001d je 00000024
0000001f call 793B716F
00000024 fldz
00000026 fstp dword ptr [ebp-40h]
00000029 fldz
0000002b fstp dword ptr [ebp-44h]
0000002e xor esi,esi
00000030 nop
float float
a = float.MaxValue / 3.0f, a = float.MaxValue / 3.0f,
00000000 sub esp,0Ch 00000031 mov dword ptr [ebp-40h],7EAAAAAAh
00000003 mov dword ptr [esp],ecx
00000006 cmp dword ptr ds:[00A2853Ch],0
0000000d je 00000014
0000000f call 793B716F
00000014 fldz
00000016 fstp dword ptr [esp+4]
0000001a fldz
0000001c fstp dword ptr [esp+8]
00000020 mov dword ptr [esp+4],7EAAAAAAh
b = a * a; b = a * a;
00000028 fld dword ptr [esp+4] 00000038 fld dword ptr [ebp-40h]
0000002c fmul st,st(0) 0000003b fmul st,st(0)
0000002e fstp dword ptr [esp+8] 0000003d fstp dword ptr [ebp-44h]
if (a * a < b) if (a * a < b)
00000032 fld dword ptr [esp+4] 00000040 fld dword ptr [ebp-40h]
00000036 fmul st,st(0) 00000043 fmul st,st(0)
00000038 fld dword ptr [esp+8] 00000045 fld dword ptr [ebp-44h]
0000003c fcomip st,st(1) 00000048 fcomip st,st(1)
0000003e fstp st(0) 0000004a fstp st(0)
00000040 jp 00000054 0000004c jp 00000052
00000042 jbe 00000054 0000004e ja 00000056
00000050 jmp 00000052
00000052 xor eax,eax
00000054 jmp 0000005B
00000056 mov eax,1
0000005b test eax,eax
0000005d sete al
00000060 movzx eax,al
00000063 mov esi,eax
00000065 test esi,esi
00000067 jne 0000007A
{ {
Console.WriteLine ("Less"); 00000069 nop
00000044 mov ecx,dword ptr ds:[0239307Ch] Console.WriteLine ("Less");
0000004a call 78678B7C 0000006a mov ecx,dword ptr ds:[0239307Ch]
0000004f nop 00000070 call 78678B7C
00000050 add esp,0Ch 00000075 nop
00000053 ret }
} 00000076 nop
else 00000077 nop
{ 00000078 jmp 00000088
Console.WriteLine ("GreaterEqual"); else
00000054 mov ecx,dword ptr ds:[02393080h] {
0000005a call 78678B7C 0000007a nop
} Console.WriteLine ("GreaterEqual");
} 0000007b mov ecx,dword ptr ds:[02393080h]
00000081 call 78678B7C
00000086 nop
}
以上显示的是浮点代码对于调试和发布都是相同的,编译器选择一致性优于优化。虽然程序产生错误的结果(a * a不小于b),但无论调试/发布模式如何,它都是相同的。
现在,英特尔IA32 FPU有8个浮点寄存器,你会认为编译器会在优化而不是写入内存时使用寄存器来存储值,从而提高性能,类似于:
fld dword ptr [a] ; precomputed value stored in ram == float.MaxValue / 3.0f
fmul st,st(0) ; b = a * a
; no store to ram, keep b in FPU
fld dword ptr [a]
fmul st,st(0)
fcomi st,st(0) ; a*a compared to b
但这会对调试版本执行不同的操作(在这种情况下,显示正确的结果)。但是,根据构建选项更改程序的行为是一件非常糟糕的事情。
FPU代码是手工编写代码可以显着优于编译器的一个领域,但您确实需要了解FPU的工作方式。
答案 2 :(得分:2)
实际上,如果调试模式使用x87 FPU并且释放模式使用SSE进行浮点运算,它们可能会有所不同。
答案 3 :(得分:1)
回应Frank Krueger的上述要求(在评论中),以示不同之处:
在gcc中编译此代码时没有优化,-mfpmath = 387(我没有理由认为它不适用于其他编译器,但我没有尝试过。) 然后编译它没有优化和-msse -mfpmath = sse。
输出会有所不同。
#include <stdio.h>
int main()
{
float e = 0.000000001;
float f[3] = {33810340466158.90625,276553805316035.1875,10413022032824338432.0};
f[0] = pow(f[0],2-e); f[1] = pow(f[1],2+e); f[2] = pow(f[2],-2-e);
printf("%s\n",f);
return 0;
}
答案 4 :(得分:1)
这是一个简单的示例,其中结果不仅在调试模式和发布模式之间不同,而且它们的方式取决于是否使用x86或x84作为平台:
Single f1 = 0.00000000002f;
Single f2 = 1 / f1;
Double d = f2;
Console.WriteLine(d);
这将写入以下结果:
Debug Release
x86 49999998976 50000000199,7901
x64 49999998976 49999998976
快速查看反汇编(在Visual Studio中为“调试”->“ Windows”->“反汇编”),可以了解此处的情况。对于x86情况:
Debug Release
mov dword ptr [ebp-40h],2DAFEBFFh | mov dword ptr [ebp-4],2DAFEBFFh
fld dword ptr [ebp-40h] | fld dword ptr [ebp-4]
fld1 | fld1
fdivrp st(1),st | fdivrp st(1),st
fstp dword ptr [ebp-44h] |
fld dword ptr [ebp-44h] |
fstp qword ptr [ebp-4Ch] |
fld qword ptr [ebp-4Ch] |
sub esp,8 | sub esp,8
fstp qword ptr [esp] | fstp qword ptr [esp]
call 6B9783BC | call 6B9783BC
尤其是,我们看到一堆看似多余的“将浮点寄存器中的值存储在内存中,然后立即将其从内存中加载回浮点寄存器中”已在释放模式下进行了优化。但是,这两个说明
fstp dword ptr [ebp-44h]
fld dword ptr [ebp-44h]
足以将x87寄存器中的值从+ 5.0000000199790138e + 0010更改为+ 4.9999998976000000e + 0010,因为可以通过逐步反汇编并研究相关寄存器的值来进行验证(调试-> Windows->寄存器,然后右键单击并选中“浮点数”。
x64的故事截然不同。我们仍然看到相同的优化删除了一些指令,但是这次,一切都取决于SSE的128位寄存器和专用指令集:
Debug Release
vmovss xmm0,dword ptr [7FF7D0E104F8h] | vmovss xmm0,dword ptr [7FF7D0E304C8h]
vmovss dword ptr [rbp+34h],xmm0 | vmovss dword ptr [rbp-4],xmm0
vmovss xmm0,dword ptr [7FF7D0E104FCh] | vmovss xmm0,dword ptr [7FF7D0E304CCh]
vdivss xmm0,xmm0,dword ptr [rbp+34h] | vdivss xmm0,xmm0,dword ptr [rbp-4]
vmovss dword ptr [rbp+30h],xmm0 |
vcvtss2sd xmm0,xmm0,dword ptr [rbp+30h] | vcvtss2sd xmm0,xmm0,xmm0
vmovsd qword ptr [rbp+28h],xmm0 |
vmovsd xmm0,qword ptr [rbp+28h] |
call 00007FF81C9343F0 | call 00007FF81C9343F0
在这里,由于SSE单元避免在内部使用比单精度更高的精度(而x87单元则使用),因此无论优化如何,我们最终都会得到x86情况的“单精度-ish”结果。实际上,人们发现(在Visual Studio寄存器概述中启用SSE寄存器之后),在vdivss
之后,XMM0包含0000000000000000-00000000513A43B7,恰好是以前的49999998976。
这两种差异在实践中都困扰着我。除了说明不应该比较浮点数相等之外,该示例还表明,在浮点数出现的那一刻,仍然可以使用C#等高级语言进行汇编调试。