Question

我有一个使用英特尔内在函数的C应用程序，如：

__m128 _mm_add_ps (__m128 a, __m128 b)
__m128 _mm_sub_ps (__m128 a, __m128 b)
__m128 _mm_mul_ps (__m128 a, __m128 b)
__m128 _mm_set_ps (float e3, float e2, float e1, float e0)
void _mm_store_ps (float* mem_addr, __m128 a)
__m128 _mm_load_ps (float const* mem_addr)

现在，我正在尝试修改我的应用程序，以便使用名为 Gem5 的模拟器使其在ARMv8上运行。所以，我开始四处寻找ARM内在函数，我找到了这本手册ARM® NEON™ Intrinsics Reference

好吧，我找到了算术内在函数，但是我在设置，存储和加载指令方面有点迷失。

任何有ARM内在函数经验的人都可以告诉我正确的内在函数吗？

Answer 1

以下是一些可以帮助您入门的内容：

SSE             ARM

__m128          float32x4_t     // 4 x 32 bits floats in a vector

_mm_load_ps     vld1q_f32       // load float vector from memory

_mm_store_ps    vst1q_f32       // store float vector to memory

_mm_add_ps      vaddq_f32       // add float vectors

至于初始化一个向量，就像你可能用的那样。在SSE中_mm_set_ps，像gcc和clang这样的编译器允许你以类似于C的方式使用Neon数据类型，例如。

const float32x4_t v = { 1.0f, 2.0f, 3.0f, 4.0f };

但是，如果您的编译器不支持此方法，那么您可能必须使用等效的Neon内在函数。

英特尔/ ARM内在函数等价

1 个答案: