标签: performance intel cpu-architecture flops
我想为某些神经网络的算法计算出理论上的速度,并且我想知道乘法,加法,FMA(融合乘法加法)和二进制运算的性能比。 我知道从here可以得出比率(乘法累加运算)和二进制运算(64位)为1.91。
我想知道所有这些操作的合理比例可能是在通用CPU,GPU上! 而这个维基page提到,对于英特尔酷睿CPU,我们拥有:8个SP FLOPS /周期,具有4级SSE加法+ 4级SSE乘法。
所以我能说一下加法运算和乘法运算是否要花相同的时间(隔离),而乘累加运算是否要花相同的时间呢?