我正在开展一个令人难以置信的性能关键项目,每个时钟周期都在我最重要的内循环中。我正在考虑重构代码以隐藏指令延迟,但我想知道现代CPU的无序执行硬件在多大程度上已经为我做了这个。请考虑以下(简单,假设)示例:
// Increment three counters. These instructions should all execute in
// parallel with latency of one cycle. Assume the previous register values
// have been computed a long time ago and are ready to use by the time
// these are decoded.
add RAX, 1;
add RBX, 2;
add RCX, 3;
// Multiply takes at least three cycles. Again, assume both inputs are
// ready by the time we get here.
imul RDX, RDI;
// Use the result of the imul immediately in a long dependency chain.
mov RDX, [RDX];
cmp RDX, 1;
jae LBlahBlahBlah;
我的问题是以下哪项适用:
现代主流无序硬件会在三个imul
指令之前对add
进行重新排序,即使add
指令在imul
之前以编程方式出现,在解码时可以使用所有输入依赖项。 imul
具有比add
指令更长的延迟,并且在依赖关系链中立即使用,因此这是最佳的。
只有当编程上较早的指令由于缺少输入依赖性而被解码时才能执行时,才会发生乱序执行。不能期望硬件“向前看”以便在运行中优化这样的事情。
答案 0 :(得分:2)
你的第二种解释是正确的,无序执行背后的想法是确保长依赖链或其他长时间运行的指令(如内存访问)不阻止独立操作(如两个与之无关的寄存器之间的添加)长时间运行的指令)并允许它们并行执行。但是,指令是按顺序获取和解码的。处理器无法预览程序,决定一条指令是独立的,并在检索其他指令之前运行它。这就是编译器想要优化的地方。
在您的示例中,指令是按顺序提取和解码的,首先是add RAX, 1
,然后是add RBX, 2
,然后是add RCX, 3
,然后是imul RDX, RDI
(尽管您可以获取并解码如果处理器是超级分类器,那么多个,但这是一个单独的概念)。每个都将依次发送到适当的保留站,但是,如果只有一个单元来执行添加,则会出现无序方面,一些添加可能与imul
同时执行;这是非常依赖的架构。
如果时间要求的细节如此严格,您将需要非常小心现代的高速架构,因为它们具有大量复杂的结构以提高性能。但是,根据代码运行,这些机制可能会导致严重的延迟。在错误或错误预测的情况下,分支预测和缓存只是延迟的两个来源(或正确使用时的良好吞吐量改进)。您最好的办法是获得一个周期精确的处理器模拟器,以确保您的代码符合要求(或者您可以使用实际的硬件)。
另请注意,如果您使用的是现代架构,我假设您可能正在运行操作系统,这是一个会破坏您试图达到的超高性能的软件级别。