代码的目的是将字符串str的每个字符减去键数组中的值。程序的非矢量化版本对应于两个程序中的最后一个循环。 这段代码怎么样:
void decode(const char* key, int m, char* str) {
int i; int n = strlen(str);
__m128i k = _mm_loadu_si128((const __m128i*) key);
for (int i = 0; i + 16 < n; i+=m) {
__m128i s = _mm_loadu_si128((__m128i*) (str + i));
s = _mm_sub_epi8(s, k);
_mm_storeu_si128((__m128i*) (str + i), s);
}
for(; i<n; i++) str[i] -= key[i%m];
}
与此不同?
void decode(const char* key, int m, char* str) {
int i, n = strlen(str);
char keybuf[16] = { 0 };
memcpy(keybuf, key, m);
__m128i k = _mm_loadu_si128((__m128i*)keybuf);
for (i=0; i+16 < n; i += m) {
__m128i s = _mm_loadu_si128((__m128i*)(str+i));
s = _mm_sub_epi8(s,k);
_mm_storeu_si128((__m128i*)(str+i), s);
}
for (; i<n; i++) str[i] -= key[i % m]; }
没有内存副本,相同的代码不会以相同的方式工作。 我正在使用gcc -msse2进行编译。 为什么需要内存复制?
答案 0 :(得分:1)
不同之处在于,在第二种情况下,您只将m
个字符加载到keybuf
,其余元素保持初始化为0.这些附加元素对str
没有影响
在第一个版本中,你很可能在向量的末尾有非零元素,因为你盲目地加载key
的所有16个元素,而不管密钥的实际长度。
要使第一个版本正常工作,您需要屏蔽16 - m
的最终k
元素,强制它们为零,例如。
const int8_t mask[32] = { -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 };
__m128i k = _mm_loadu_si128((const __m128i*) key); // load 16 elements
k = _mm_and_si128(k, _mm_loadu_si128((const __m128i*)&mask[16 - m]));
// mask out final 16 - m elements
(注意:可能有一种更有效的方法来进行掩蔽,但它是我能在短时间内提出的最佳方法。它仍然会比{{更高效) 1}}版本,我猜。请参阅this question and its answers了解其他一些方法。)