是否有关于AVX2收集延迟的数据?
(例如,访问单个缓存行的_mm256_i32gather_ps指令)
答案 0 :(得分:2)
答案 1 :(得分:1)
实际上,这实际上取决于硬件。如果查看Agner Fog的instruction tables,您会看到没有列出Zen1和Zen2的延迟,但是VGATHERDPS的互惠吞吐量为13-20和9-16。对于英特尔处理器,我们有:
xmm ymm
Processor throughput latency throughput latency
-------------------------------------------------------
Haswell 9 12
Broadwell 6 7
Skylake 4 12 5 13
SkylakeX 4 12 5 13
Coffee Lake 4 12 5 13
此外,Intel's site不再列出AVX2的收集指令的吞吐量/等待时间,但是AVX512则有一些。