Question

我发现！=和==不是测试零或非零的最快方法。

bool nonZero1 = integer != 0;
xor eax, eax
test ecx, ecx
setne al

bool nonZero2 = integer < 0 || integer > 0;
test ecx, ecx
setne al

bool zero1 = integer == 0;
xor eax, eax
test ecx, ecx
sete al

bool zero2 = !(integer < 0 || integer > 0);
test ecx, ecx
sete al

编译器：VC ++ 11 优化标志：/ O2 / GL / LTCG

这是x86-32的汇编输出。两个比较的第二个版本在x86-32和x86-64上都快了约12％。但是，在x86-64上，指令是相同的（第一个版本看起来与第二个版本完全相同），但第二个版本仍然更快。

为什么编译器不能在x86-32上生成更快的版本？
当汇编输出相同时，为什么x86-64上的第二个版本仍然更快？

编辑：我添加了基准测试代码。零：1544毫秒，1358毫秒NON_ZERO：1544毫秒，1358毫秒 http://pastebin.com/m7ZSUrcP 要么 http://anonymouse.org/cgi-bin/anon-www.cgi/http://pastebin.com/m7ZSUrcP

注意：在单个源文件中编译时找到这些函数可能不方便，因为main.asm非常大。我在一个单独的源文件中有zero1，zero2，nonZero1，nonZero2。

EDIT2：安装了VC ++ 11和VC ++ 2010的人是否可以运行基准测试代码并发布时间？它可能确实是VC ++ 11中的一个错误。

Answer 1

这是一个很好的问题，但我认为你已成为编译器依赖性分析的牺牲品。

编译器只需要清除eax的高位一次，并且它们对第二个版本保持清晰。第二个版本必须付出xor eax, eax的价格，但编译器分析证明它已被第一个版本清除。

第二个版本可以利用编译器在第一个版本中所做的工作来“欺骗”。

你是如何衡量时间的？是“（版本1，后跟版本2）循环”，或“（循环中的版本1）后跟（循环中的版本2）”？

不要在同一个程序中执行这两个测试（而是针对每个版本重新编译），或者如果你这样做，请先测试“版本A优先”和“版本B优先”，然后查看先出先付的是否支付罚金。

作弊的插图：

timer1.start();
double x1 = 2 * sqrt(n + 37 * y + exp(z));
timer1.stop();
timer2.start();
double x2 = 31 * sqrt(n + 37 * y + exp(z));
timer2.stop();

如果timer2持续时间小于timer1持续时间，我们不会得出结论，乘以31比乘以2要快。相反，我们意识到编译器执行了常见的子表达式分析，并且代码变成了：

timer1.start();
double common = sqrt(n + 37 * y + exp(z));
double x1 = 2 * common;
timer1.stop();
timer2.start();
double x2 = 31 * common;
timer2.stop();

唯一证明的是，乘以31比计算common要快。这根本不足为奇 - 乘法远远快于sqrt和exp。

Answer 2

编辑：为我的代码看了OP的汇编列表。我怀疑这甚至是VS2011 的一般错误。这可能只是OP代码的一个特例。我使用clang 3.2，gcc 4.6.2和VS2010按原样运行OP代码，并且在所有情况下最大差异均为~1％。

只需对我的ne.c文件以及/O2和/GL标记进行适当修改即可编译源代码。这是源

int ne1(int n) { return n != 0; } int ne2(int n) { return n < 0 || n > 0; } int ne3(int n) { return !(n == 0); } int main() { int p = ne1(rand()), q = ne2(rand()), r = ne3(rand());}

和相应的程序集：

; Listing generated by Microsoft (R) Optimizing Compiler Version 16.00.30319.01 TITLE D:\llvm_workspace\tests\ne.c .686P .XMM include listing.inc .model flat INCLUDELIB OLDNAMES EXTRN @__security_check_cookie@4:PROC EXTRN _rand:PROC PUBLIC _ne3 ; Function compile flags: /Ogtpy ; COMDAT _ne3 _TEXT SEGMENT _n$ = 8 ; size = 4 _ne3 PROC ; COMDAT ; File d:\llvm_workspace\tests\ne.c ; Line 11 xor eax, eax cmp DWORD PTR _n$[esp-4], eax setne al ; Line 12 ret 0 _ne3 ENDP _TEXT ENDS PUBLIC _ne2 ; Function compile flags: /Ogtpy ; COMDAT _ne2 _TEXT SEGMENT _n$ = 8 ; size = 4 _ne2 PROC ; COMDAT ; Line 7 xor eax, eax cmp eax, DWORD PTR _n$[esp-4] sbb eax, eax neg eax ; Line 8 ret 0 _ne2 ENDP _TEXT ENDS PUBLIC _ne1 ; Function compile flags: /Ogtpy ; COMDAT _ne1 _TEXT SEGMENT _n$ = 8 ; size = 4 _ne1 PROC ; COMDAT ; Line 3 xor eax, eax cmp DWORD PTR _n$[esp-4], eax setne al ; Line 4 ret 0 _ne1 ENDP _TEXT ENDS PUBLIC _main ; Function compile flags: /Ogtpy ; COMDAT _main _TEXT SEGMENT _main PROC ; COMDAT ; Line 14 call _rand call _rand call _rand xor eax, eax ret 0 _main ENDP _TEXT ENDS END
使用ne2()，<和>运营商的
|| 显然更贵。分别使用ne1()和ne3()运算符的==和!=更加简洁明了。

Visual Studio 2011 in beta 。我认为这是一个错误。我和其他两个编译器的测试，即 gcc 4.6.2 和 clang 3.2 ，O2优化开关为所有三个测试产生完全相同的组件（我在我的Windows 7盒子上。以下是摘要：

$ cat ne.c #include <stdbool.h> bool ne1(int n) { return n != 0; } bool ne2(int n) { return n < 0 || n > 0; } bool ne3(int n) { return !(n != 0); } int main() {}

以gcc：
收益
_ne1: LFB0: .cfi_startproc movl 4(%esp), %eax testl %eax, %eax setne %al ret .cfi_endproc LFE0: .p2align 2,,3 .globl _ne2 .def _ne2; .scl 2; .type 32; .endef _ne2: LFB1: .cfi_startproc movl 4(%esp), %edx testl %edx, %edx setne %al ret .cfi_endproc LFE1: .p2align 2,,3 .globl _ne3 .def _ne3; .scl 2; .type 32; .endef _ne3: LFB2: .cfi_startproc movl 4(%esp), %ecx testl %ecx, %ecx sete %al ret .cfi_endproc LFE2: .def ___main; .scl 2; .type 32; .endef .section .text.startup,"x" .p2align 2,,3 .globl _main .def _main; .scl 2; .type 32; .endef _main: LFB3: .cfi_startproc pushl %ebp .cfi_def_cfa_offset 8 .cfi_offset 5, -8 movl %esp, %ebp .cfi_def_cfa_register 5 andl $-16, %esp call ___main xorl %eax, %eax leave .cfi_restore 5 .cfi_def_cfa 4, 4 ret .cfi_endproc LFE3:

和clang：

.def _ne1; .scl 2; .type 32; .endef .text .globl _ne1 .align 16, 0x90 _ne1: cmpl $0, 4(%esp) setne %al movzbl %al, %eax ret .def _ne2; .scl 2; .type 32; .endef .globl _ne2 .align 16, 0x90 _ne2: cmpl $0, 4(%esp) setne %al movzbl %al, %eax ret .def _ne3; .scl 2; .type 32; .endef .globl _ne3 .align 16, 0x90 _ne3: cmpl $0, 4(%esp) sete %al movzbl %al, %eax ret .def _main; .scl 2; .type 32; .endef .globl _main .align 16, 0x90 _main: pushl %ebp movl %esp, %ebp calll ___main xorl %eax, %eax popl %ebp ret

我的建议是将此文件作为Microsoft Connect的错误提交。

注意：我将它们编译为C源代码，因为我不认为使用相应的C ++编译器会在此处进行任何重大更改。

int运算符！=和==比较为零

2 个答案: