_mm512_mask_prefetch_i32gather_ps()会为每个元素预取整个缓存行吗?

时间:2014-07-08 09:08:37

标签: intrinsics prefetch xeon-phi intel-mic avx512

聚集预取内在_mm512_mask_prefetch_i32gather_ps可用于在Knights Corner上预取32位浮点数。

由于不存在相应的双精度内在函数,如何将此内在函数用于预取64位或128位元素?

是否需要显式预取每个4字节块,或者我们是否可以假设32位变量的每个预取实际上都会预取它占用的整个64字节高速缓存行?

示例:

我想从基地{1,2,10,12}预取偏移0xf0000000的4个双打。

这对应于{0xf0000008, 0xf0000010, 0xf0000050, 0xf0000060}

的地址

这些占用从{0xf0000000, 0xf0000040}开始的两个缓存行。

_mm512_mask_prefetch_i32gather_ps与这两个缓存行的基地址一起使用是否足够?

我最初在英特尔MIC论坛上发布此问题但没有成功。

0 个答案:

没有答案