提示编译器可以使用对齐的memcpy

时间:2017-11-10 22:01:46

标签: c glibc memcpy memory-alignment avx

我有一个由7个__m256值组成的结构,它在内存中以32字节对齐的方式存储。

typedef struct
{
        __m256 xl,xh;
        __m256 yl,yh;
        __m256 zl,zh;
        __m256i co;
} bloxset8_t;

我使用posix_memalign()函数实现动态分配数据,或使用(aligned(32))属性进行静态分配数据,实现32字节对齐。

对齐很好,但是当我使用两个指向这样的结构的指针,并将它们作为memcpy()的目标和源传递时,编译器决定使用__memcpy_avx_unaligned()进行复制。

如何强制clang使用对齐的avx memcpy函数,我认为它是更快的变体?

操作系统:Ubuntu 16.04.3 LTS,Clang:3.8.0-2ubuntu4。

更新
仅在复制两个或多个结构时才会调用__memcpy_avx_unaligned()。当只复制一个时,clang会发出14个vmovup指令。

1 个答案:

答案 0 :(得分:6)

__memcpy_avx_unaligned只是一个内部glibc函数名。这并不意味着有更快的__memcpy_avx_aligned功能。这个名称只是向glibc开发人员传达了如何实现这个memcpy变体。

另一个问题是,使用四个AVX2加载/存储操作,C编译器是否会更快地发出memcpy的内联扩展。它的代码将大于memcpy调用,但总体上可能更快。可以使用__builtin_assume_aligned builtin帮助编译器执行此操作。

相关问题