例如,
for (int i = 0; i < max; i++)
{
...
}
和
for (int i = max-1; i >= 0; i--)
{
...
}
这两个循环基本相同,并假设循环不包含任何数组操作。但是,对于第一种情况,每次迭代都需要将max加载到处理器中的寄存器中,然后在i和max之间进行比较..另一方面,后一种情况不需要将0加载到寄存器中,因为0已经是在寄存器中,所以只有后一个循环的比较。如果我错了,请纠正我,如果我是对的,请详细说明。 感谢。
答案 0 :(得分:5)
省略号代表的代码几乎肯定会将任何实际性能差异归结为单纯的噪音。但是,你的所有假设都不正确。
每次迭代都需要将max加载到处理器的寄存器中,然后在i和max之间进行比较
也许,但可能不是。这取决于您的代码,但任何理智的优化编译器都能够检测计数器是否在迭代之间发生变化。
我不确定你的想法在哪里,但它们有点被误导,并没有考虑优化编译器的工作原理。看看你的反汇编,看看你真正的区别是什么。哦,到底是什么,我会做的(无论如何都很有趣):
该计划是:
int main(int argc, char *argv[]){
int max = 10;
for (int i = max-1; i >= 0; i--)
{
cout << i;
}
return 0;
}
生成的程序集(VS2010发布,评论我自己)是:
int main(int argc, char *argv[]){
00341000 push esi
int max = 10;
for (int i = max-1; i >= 0; i--)
00341001 mov esi,9 ; move a static 9 into esi
00341006 jmp main+10h (341010h)
00341008 lea esp,[esp] ; load the address of whatever
0034100F nop ; esp points to in memory
{ ; (not a memory fetch, just address calculation)
cout << i;
00341010 mov ecx,dword ptr [__imp_std::cout (342048h)]
00341016 push esi
00341017 call dword ptr [__imp_std::basic_ostream<char,std::char_traits<char> >::operator<< (342044h)]
0034101D dec esi ; decrement counter
0034101E jns main+10h (341010h) ; jump if not signed
}
对于更惯用的版本......
int main(int argc, char *argv[]){
00AC1000 push esi
int max = 10;
for (int i = 0; i < max; i++)
00AC1001 xor esi,esi
{
cout << i;
00AC1003 mov ecx,dword ptr [__imp_std::cout (0AC2048h)]
00AC1009 push esi
00AC100A call dword ptr [__imp_std::basic_ostream<char,std::char_traits<char> >::operator<< (0AC2044h)]
00AC1010 inc esi ; increment esi
00AC1011 cmp esi,0Ah ; compare to 10 (0Ah)
00AC1014 jl main+3 (0AC1003h) ; if less, jump to top
}
所以是的,第一个版本使用jns
指令(如果没有签名则跳转),因此比较简化了一点(比较为0)。它还包含一些指令,但没有比较。
但请注意,在第二版中进行的比较也是静态的。它知道max
在整个循环中不会发生变化,因此它可以相应地优化该位。
但我强烈重申,这不太可能产生可观的性能优势。即使我的Windows PC上的高性能计时器也无法在两者之间给出良好的统计差异,因为对cout
的调用比循环指令要长得多。
答案 1 :(得分:2)
编译器级优化将根据循环内容的不同而变化,这可能是一个有争议的问题。例如,编译器可能能够确定Max的值在循环期间不会改变,因此只将其加载到内存中一次。
如果您真的担心这种级别的微优化,您需要准确了解您计划使用的编译器和编译器设置,然后在目标硬件上进行时序测试以比较不同的选项。或者,您可以直接查看编译器输出并比较实际的程序集或机器级指令,以查看一个版本是否使用的指令多于另一个版本。
答案 2 :(得分:1)
增加或减少的选择通常不基于与性能相关的任何内容。它通常基于逻辑流程,用于对循环上下文最有意义的任何算法或代码位。
取决于实现预增量(++ i),有时比后增量(i ++)快,但编译器将优化大多数循环,甚至在迭代量为的情况下完全展开它们不变。在您确定测试中的性能瓶颈之前,通常不值得优化任何代码。
简而言之,不要让小东西流汗。
答案 3 :(得分:0)
是的,它可能会更好,因为与0比较比非零更好。但是现代编译器通常在优化代码方面做得很好,所以没有太大的区别。
最后一点 - 它是微观优化。我会避免使用它,除非它使代码更具可读性。