在sse内在函数中有两种实现累积的方法。但是其中之一得到了错误的结果。
#include <smmintrin.h>
int main(int argc, const char * argv[]) {
int32_t A[4] = {10, 20, 30, 40};
int32_t B[8] = {-1, 2, -3, -4, -5, -6, -7, -8};
int32_t C[4] = {0, 0, 0, 0};
int32_t D[4] = {0, 0, 0, 0};
__m128i lv = _mm_load_si128((__m128i *)A);
__m128i rv = _mm_load_si128((__m128i *)B);
// way 1 unexpected
rv += lv;
_mm_store_si128((__m128i *)C, rv);
// way 2 expected
rv = _mm_load_si128((__m128i *)B);
rv = _mm_add_epi32(lv, rv);
_mm_store_si128((__m128i *)D, rv);
return 0;
}
预期结果是:
9 22 27 36
C是:
9 23 27 37
D是:
9 22 27 36
答案 0 :(得分:5)
在GNU C中,__m128i
被定义为 64位整数的向量,其中类似
typedef long long __m128i __attribute__((vector_size(16), may_alias));
使用GNU C本机矢量语法(+
运算符)可对每个元素添加64位元素大小。即_mm_add_epi64
。
在您的情况下,从一个32位元素的顶部进行进位会在其上方的32位元素上添加一个额外的进位,因为64位元素的大小确实会在成对的32位元素之间传播进位。 (将负数添加到非零目标会产生结转。)
Intel内部函数API没有为+
/ __m128
/ __m128d
定义__m128i
运算符。例如,您的代码将无法在MSVC上编译。
因此,您得到的行为仅来自GCC标头中内在类型的实现细节。对于具有明显元素大小的浮点向量很有用,但对于整数向量,除非确实碰巧具有64位整数,否则您要定义自己的向量。
如果您希望能够使用v1 += v2;
,则可以定义自己的GNU C本机向量类型,例如
typedef uint32_t v4ui __attribute__((vector_size(16), aligned(4)));
请注意,我省略了may_alias
,因此仅将指针强制转换为unsigned
而不读取char[]
之类的任意数据是安全的。
事实上,海湾合作委员会的emmintrin.h
(SSE2)确实定义了一堆类型:
/* SSE2 */
typedef double __v2df __attribute__ ((__vector_size__ (16)));
typedef long long __v2di __attribute__ ((__vector_size__ (16)));
typedef unsigned long long __v2du __attribute__ ((__vector_size__ (16)));
typedef int __v4si __attribute__ ((__vector_size__ (16)));
typedef unsigned int __v4su __attribute__ ((__vector_size__ (16)));
typedef short __v8hi __attribute__ ((__vector_size__ (16)));
typedef unsigned short __v8hu __attribute__ ((__vector_size__ (16)));
typedef char __v16qi __attribute__ ((__vector_size__ (16)));
typedef unsigned char __v16qu __attribute__ ((__vector_size__ (16)));
我不确定它们是否打算供外部使用。
当您想让编译器发出有效代码以除以编译时常数或类似的东西时,GNU C本机向量最有用。例如具有16位无符号整数的digit = v1 % 10;
和v1 /= 10;
将编译为pmulhuw
并向右移位。但是它们对于可读代码也很方便。
有些C ++包装库可移植地提供运算符重载,并且具有类似Vec4i
(4x带符号的int)/ Vec4u
(4x带符号的int)/ Vec16c
(16x带符号的char型)的类型。 )为不同类型的整数向量提供类型系统,因此您知道从v1 += v2;
或v1 >>= 2;
得到的结果(右移是一种重要的情况。)
例如Agner Fog的VCL(GPL许可证)或DirectXMath(MIT许可证)。