在C ++中,我试图围绕一个64位整数编写一个包装器。我的期望是,如果正确编写并且所有方法都被内联,那么包装器应该与真实类型一样高效。对此question的回答似乎与我的期望一致。
我写了这段代码来测试我的期望:
class B
{
private:
uint64_t _v;
public:
inline B() {};
inline B(uint64_t v) : _v(v) {};
inline B& operator=(B rhs) { _v = rhs._v; return *this; };
inline B& operator+=(B rhs) { _v += rhs._v; return *this; };
inline operator uint64_t() const { return _v; };
};
int main(int argc, char* argv[])
{
typedef uint64_t;
//typedef B T;
const unsigned int x = 100000000;
Utils::CTimer timer;
timer.start();
T sum = 0;
for (unsigned int i = 0; i < 100; ++i)
{
for (uint64_t f = 0; f < x; ++f)
{
sum += f;
}
}
float time = timer.GetSeconds();
cout << sum << endl
<< time << " seconds" << endl;
return 0;
}
当我使用typedef B T
运行时;使用VC ++编译时报告的时间总是低10%,而不是typedef uint64_t T
。使用g ++,如果我使用包装器,性能是相同的。
由于g ++这样做,我想VC ++无法正确优化这一点没有技术原因。我能做些什么来优化它吗?
我已经尝试使用optimisations标志但没有成功
答案 0 :(得分:4)
为了记录,这就是g ++和clang ++在-O2
生成的程序集转换为(在包装器和非包装器的情况下),以时序部分为模:
sum = 499999995000000000;
cout << sum << endl;
换句话说,它完全优化了循环。无论你如何努力地对循环进行矢量化,它都很难被击败而不是循环:)
答案 1 :(得分:3)
使用/O2
(最大化速度),两个备选方案都使用Visual Studio 2012生成完全相同的程序集。这是您的代码,减去时间和输出:
00FB1000 push ebp
00FB1001 mov ebp,esp
00FB1003 and esp,0FFFFFFF8h
00FB1006 sub esp,8
00FB1009 mov edx,64h
00FB100E mov edi,edi
00FB1010 xorps xmm0,xmm0
00FB1013 movlpd qword ptr [esp],xmm0
00FB1018 mov ecx,dword ptr [esp+4]
00FB101C mov eax,dword ptr [esp]
00FB101F nop
00FB1020 add eax,1
00FB1023 adc ecx,0
00FB1026 jne main+2Fh (0FB102Fh)
00FB1028 cmp eax,5F5E100h
00FB102D jb main+20h (0FB1020h)
00FB102F dec edx
00FB1030 jne main+10h (0FB1010h)
00FB1032 xor eax,eax
我认为测量的时间波动或不总是正确的。