在我学习汇编(在x86_64上使用GCC)的过程中,我遇到了一些SSE示例,而不是仅仅将C变量复制到寄存器中,而是将地址复制到EAX中。为什么这样做才能做到:
typedef float v4sf __attribute__((vector_size(16)));
typedef union {
v4sf v;
float f[4];
} Vec4;
Vec4 vector.v = (v4sf){ 64.1,128.2,256.3,512.4 };
float blah = 2.2;
__asm__("movups %0, %%xmm0 \n\t"
"movups %1, %%xmm1 \n\t"
"shufps $0x00, %%xmm1, %%xmm1 \n\t"
"mulps %%xmm1, %%xmm0 \n\t"
"movups %%xmm0, %0 \n\t"
: "+m"(vector)
: "m"(blah)
: "%xmm0","%xmm1"
);
将向量复制到xmm0(而不是将其保留在内存中)会导致性能下降吗?
这是我正在谈论的一个例子(它的英特尔语法):
void powf_schlickSSE(const float * a, const float b, float * result){
__asm {
mov eax, a //load address of vector
movss xmm0, dword ptr [b] //load exponent into SSE register
movups xmm1, [eax] //load vector into SSE register
shufps xmm0, xmm0, 0 //shuffle b into all floats
movaps xmm2, xmm1 //duplicate vector
mov eax, result //load address of result
mulps xmm1, xmm0 //xmm1 = a*b
subps xmm0, xmm1 //xmm0 = b-a*b
addps xmm0, xmm2 //xmm2 = b-a*b+a
rcpps xmm0, xmm0 //xmm1 = 1 / (b-a*b+a)
mulps xmm2, xmm0 //xmm0 = a * (1 / (b-a*b+a))
movups [eax], xmm2 //store result
}
}
答案 0 :(得分:0)
我可以看到多种原因
MSVC(英特尔语法代码来自哪个,对吧?)不支持将__m128值传递到汇编块中,或者至少代码编写的版本没有。或者,除了通过内联汇编之外,该版本可能根本不支持SSE。
程序的其余部分没有处理矢量类型,因此通过指针传递是最简单的解决方案。