了解FMA指令的性能

时间:2017-01-07 23:53:26

标签: floating-point cpu-architecture instruction-set flops fma

我想知道如何最大化我可以在CPU上运行的操作数量。我正在做一个简单的矩阵乘法程序,我有一个Skylake处理器。我正在维基百科页面上查看关于这个架构的翻牌信息,我很难理解它。

根据我的理解,FMA指令允许3路FP输入吗?并允许在它们之间的加法和乘法之间进行混合。但是当我只添加两个花车时会发生什么?它只是乘以一个吗?我可以在1个周期中添加3个浮点数,还是会拆分?我看到skylake,单个精度输入有32个FLOP /周期,但是“两个8宽FMA指令”是什么意思?

提前感谢您的解释

1 个答案:

答案 0 :(得分:7)

FMA在单次操作中计算±a * b±c,具有单个舍入误差。这就是它的作用,没有别的。使用FMA指令无法计算a + b + c;你需要两个相关的ADD操作。

根据编译器的不同,您可能必须转换编译器选项以允许使用FMA指令,因为它们不会提供与multiply相同的结果,后跟add。在某些情况下,您可能需要重新安排代码,例如 b + c d + e将计算为x = a b; y = FMA(c,d,x),z = y + e但是e + a b + c * d将被计算为x = FMA(a,b,e); z = FMA(c,d,x)。 FFT的基本运算可以用8个浮点运算来执行,并且可以使用4个FMA和2个其他运算重写为10个运算。

“两个8宽FMA指令”意味着它可以使用两个256位向量寄存器执行FMA指令,每个向量寄存器包含8个浮点数,其中两个在同一个周期内。