我有以下代码,并期望使用exp()
函数的内在版本。不幸的是,它不是在x64版本中,使其比类似的Win32(即32位版本)慢:
#include "stdafx.h"
#include <cmath>
#include <intrin.h>
#include <iostream>
int main()
{
const int NUM_ITERATIONS=10000000;
double expNum=0.00001;
double result=0.0;
for (double i=0;i<NUM_ITERATIONS;++i)
{
result+=exp(expNum); // <-- The code of interest is here
expNum+=0.00001;
}
// To prevent the above from getting optimized out...
std::cout << result << '\n';
}
我正在使用以下开关进行构建:
/Zi /nologo /W3 /WX-
/Ox /Ob2 /Oi /Ot /Oy /GL /D "WIN32" /D "NDEBUG"
/D "_CONSOLE" /D "_UNICODE" /D "UNICODE" /Gm-
/EHsc /GS /Gy /arch:SSE2 /fp:fast /Zc:wchar_t /Zc:forScope
/Yu"StdAfx.h" /Fp"x64\Release\exp.pch" /FAcs /Fa"x64\Release\"
/Fo"x64\Release\" /Fd"x64\Release\vc100.pdb" /Gd /errorReport:queue
如您所见,我MSDN article on intrinsics根据需要/Oi
,/O2
和/fp:fast
。然而,尽管我努力调用标准库,但使exp()
在x64版本上执行速度变慢。
以下是生成的程序集:
for (double i=0;i<NUM_ITERATIONS;++i)
000000013F911030 movsd xmm10,mmword ptr [__real@3ff0000000000000 (13F912248h)]
000000013F911039 movapd xmm8,xmm6
000000013F91103E movapd xmm7,xmm9
000000013F911043 movaps xmmword ptr [rsp+20h],xmm11
000000013F911049 movsd xmm11,mmword ptr [__real@416312d000000000 (13F912240h)]
{
result+=exp(expNum);
000000013F911052 movapd xmm0,xmm7
000000013F911056 call exp (13F911A98h) // ***** exp lib call is here *****
000000013F91105B addsd xmm8,xmm10
expNum+=0.00001;
000000013F911060 addsd xmm7,xmm9
000000013F911065 comisd xmm8,xmm11
000000013F91106A addsd xmm6,xmm0
000000013F91106E jb main+52h (13F911052h)
}
正如您在上面的程序集中所看到的,有一个exp()
函数的调用。现在,让我们看看为具有32位构建的for
循环生成的代码:
for (double i=0;i<NUM_ITERATIONS;++i)
00101031 xorps xmm1,xmm1
00101034 rdtsc
00101036 push ebx
00101037 push esi
00101038 movsd mmword ptr [esp+1Ch],xmm0
0010103E movsd xmm0,mmword ptr [__real@3ee4f8b588e368f1 (102188h)]
00101046 push edi
00101047 mov ebx,eax
00101049 mov dword ptr [esp+3Ch],edx
0010104D movsd mmword ptr [esp+28h],xmm0
00101053 movsd mmword ptr [esp+30h],xmm1
00101059 lea esp,[esp]
{
result+=exp(expNum);
00101060 call __libm_sse2_exp (101EC0h) // <--- Quite different from 64-bit
00101065 addsd xmm0,mmword ptr [esp+20h]
0010106B movsd xmm1,mmword ptr [esp+30h]
00101071 addsd xmm1,mmword ptr [__real@3ff0000000000000 (102180h)]
00101079 movsd xmm2,mmword ptr [__real@416312d000000000 (102178h)]
00101081 comisd xmm2,xmm1
00101085 movsd mmword ptr [esp+20h],xmm0
expNum+=0.00001;
0010108B movsd xmm0,mmword ptr [esp+28h]
00101091 addsd xmm0,mmword ptr [__real@3ee4f8b588e368f1 (102188h)]
00101099 movsd mmword ptr [esp+28h],xmm0
0010109F movsd mmword ptr [esp+30h],xmm1
001010A5 ja wmain+40h (101060h)
}
那里有更多代码,但速度更快。我在3.3 GHz Nehalem-EP主机上进行的定时测试产生了以下结果:
32位:
对于循环体平均执行时间:34.849229个循环/ 10.560373 ns
64位:
对于循环体平均执行时间:45.845323个循环/ 13.892522 ns
确实很奇怪的行为。为什么会这样?
的更新 的
我创建了一个Microsoft Connect bug report。随意使用浮点内在函数来获取Microsoft本身的权威答案,特别是在x64代码中。
答案 0 :(得分:5)
在x64上,使用SSE执行浮点运算。这没有exp()
的内置操作,因此除非您编写自己的内联手动矢量化__m128d exp(__m128d)
(Fastest Implementation of Exponential Function Using SSE),否则无法调用标准库。
我想你所引用的MSDN文章是用32位代码编写的,它考虑了8087 FP。
答案 1 :(得分:1)
我认为Microsoft提供32位SSE2 exp()内在版本的唯一原因是标准调用约定。 32位调用约定要求将操作数推送到主堆栈,并将结果返回到FPU堆栈的顶部寄存器中。如果启用了SSE2代码生成,则返回值很可能从FPU堆栈弹出到内存中,然后从该位置加载到SSE2寄存器中,以获取您想要对结果执行的任何数学运算。显然,在SSE2寄存器中传递操作数并将结果返回到SSE2寄存器更快。这就是__libm_sse2_exp()的作用。在64位代码中,标准调用约定传递操作数并将结果返回到SSE2寄存器中,因此具有内在版本没有任何优势。
32位SSE2和64位exp()实现之间性能差异的原因是Microsoft在这两种实现中使用了不同的算法。我不知道为什么他们这样做,并且他们为一些操作数产生不同的结果(不同的1ulp)。
答案 2 :(得分:0)
编辑我想在此讨论中添加指向AMD's x64 instruction set manuals和Intel's reference的链接。
在初步检查时,应该有一种方法可以使用F2XM1来计算指数。但是,它位于x87指令集hidden in x64 mode.
中明确使用MMX / x87是有希望的,如VirtualDub discussion boards.上的帖子所述,这是how to actually write asm in VC++.