长等待时间指令

时间:2019-10-25 22:24:16

标签: optimization x86 cpu-architecture micro-optimization microbenchmark

我想要一条长延迟的单指令x86 1 指令,以便创建长的依赖链,作为测试微体系结构功能的一部分。

当前我正在使用fsqrt,但我想知道还有更好的方法。

理想情况下,该指令在以下标准上得分会很高:

  • 长时间等待
  • 稳定/固定的延迟时间
  • 一个或几个微码(特别是:未微码)
  • 消耗尽可能少的uarch资源(加载/存储缓冲区,页面漫游器等)
  • 能够(在延迟方面)与自身链接
  • 能够通过GP寄存器链接输入和输出
  • 不干扰正常的OoO执行(除了消耗的ROB,RS等资源之外)

因此,fsqrt在大多数情况下都可以,但是等待时间并不长,并且似乎很难与GP规则链接。


1 特别是在现代的Intel x86上,如果它在AMD Zen *上也能很好地工作,则可以加分。

2 个答案:

答案 0 :(得分:3)

主流Intel CPU没有任何很长等待时间的单uup整数指令。在所有ALU端口上都有用于1周期等待时间的整数ALU,在端口1上有3周期等待时间的流水线ALU。我认为AMD是相似的。

div / sqrt单元是唯一真正的高延迟ALU,但是整数div / idiv在Intel上进行了微编码,因此,请使用FP,其中div / sqrt通常是单uup指令。

AMD的整数div / idiv是2 uop指令(可能要写入2个输出),并具有与数据有关的延迟。

此外,AMD Bulldozer / Piledriver(2个整数内核共享一个SIMD / FP单元)对于movd xmm, r32(10c 2 oups)和movd r32, xmm(8c 1 uop)具有很高的延迟。 Steamroller将其每个缩短1c。 Ryzen在任一方向上都有3个循环1个单位。

在Intel上往返XMM regs的

movd便宜:具有1周期(Broadwell和更早版本)或2周期延迟(Skylake)的单Uop。 (https://agner.org/optimize/


sqrtss具有固定的延迟(在IvB及更高版本上),可能输入不正常除外。如果整数整数链仅涉及任意整数位模式的movd xmm, r32,则可能需要设置DAZ / FTZ以消除FP辅助的可能性。 NaN输入很好;不会导致SSE / AVX数学运算变慢,只有x87。

其他CPU(Sandybridge和更早的版本,以及所有AMD)具有可变延迟sqrtss,因此您可能希望控制那里的起始位模式。

如果您想使用sqrtsd来获得比u sqrtss 更高的每单位延迟时间,则该方法同样适用。即使在Skylake上,延迟仍然是可变的。 (15-16个周期)。

您可以假设等待时间是输入位模式的纯函数,因此每次以相同的输入启动sqrtss指令链将产生相同的延迟。或以0.01.0+infNaN的开始输入,您将为每个uop获得相同的延迟。顺序。

(简单的输入(例如1.0和0.0)(输入和输出中的几个有效数字)可能以最低的延迟运行。sqrt(1.0)= 1.0和sqrt(0)= 0,所以它们是自持久的。 sqrt(NaN)= NaN)

您可以在链中使用and reg, 0或其他不中断零位来控制输入位模式。或or reg, -1创建NaN。然后,您可以在Sandybridge或更早版本以及包括Zen在内的AMD上获得固定的延迟。

或者也许是pinsrw xmm0, eax, 7(Intel 5端口为2 oups)仅修改XMM的高位qword,而将底部保留为已知的0.01.0。除非端口5的压力不是问题,否则便宜到and仅用0并使用movd可能更便宜。


要创建吞吐量瓶颈(而不是延迟),您对Skylake的最佳选择是vsqrtpd ymm-p0为1 uop,延迟= 15-16,吞吐量= 9-12。< / p>

在Broadwell和更早的版本中,这是3 oups(2p0 p15),但是我认为Skylake拓宽了SIMD分频器(我想是在为AVX512做准备)。

答案 1 :(得分:2)

vsqrtss可能比fsqrt更好一些,因为它至少满足了与GP寄存器的相对容易的链接(因为GP <->向量距离movd仅一步之遥)。

相关问题