我必须在Ubuntu上使用GCC编译器在C程序中将以下语句编写为内联汇编代码。
__int128 X = (__int128)F[0]*T[0]+(__int128)F[1]*T[1]+(__int128)F[2]*T[2]);
其中F是无符号的64位整数数组,T是带符号的64位整数数组。数组F作为参数通过引用传递,而T是本地数组。我已将上述声明翻译如下
__asm__("movq %0, %%rax; imulq %1; movq %%rax, %%xmm0; movq %%rdx, %%xmm1;"
::"m"(F[0]), "m"(T[0]));
__asm__("movq %0, %%rax; imulq %1; movq %%xmm0, %%rcx; addq %%rcx, %%rax;"
"movq %%rax, %%xmm0; movq %%xmm1, %%rcx; adcq %%rcx, %%rdx;"
"movq %%rdx, %%xmm1;"
::"m"(F[1]), "m"(T[1]));
__asm__("movq %2, %%rax; imulq %3; movq %%xmm0, %%rcx; addq %%rcx, %%rax;"
"movq %%rax, %?; movq %%xmm1, %%rcx; adcq %%rcx, %%rdx;"
"movq %%rdx, %?;"
:"=m"(??), "=m"(??):"m"(F[2]), "m"(T[2]));
首要问题是我做得对吗?如果是,那么我不知道如何将结果存储到X中,因为结果的较低64位是rax而较高的64位是rdx。我检查过,如果我替换?通过X,我得到了错误的结果。
仅使用xmm寄存器进行存储是有原因的。因为我对内联汇编很天真,所以我认为有更好的方法可以做到这一点。我用上面的内联汇编代码检查了我的程序,没有错误。任何有关改进的帮助或建议都将受到高度赞赏。
答案 0 :(得分:4)
你是符号扩展F.因为没有带符号的*无符号乘法指令,所以必须明确地进行符号扩展(16位到32位的例子):
(0xFFFF0000 + S) * U
= 0xFFFF0000 * U + S * U
= (0x100000000 - 0x10000) * U + S * U
= 0x100000000 * U - 0x10000 * U + S * U
= S * U - 0x10000 * U (don't care about high bits)
您不能依赖于内联asm语句块之间的寄存器中的值;你必须使用变量。所有修改过的寄存器必须声明为输出或clobbers。
例如,U
,64位无符号值和S
的单个乘法,64位有符号值:
__int128 X;
uint64_t Utmp = U;
asm ("mov %1, %%rax;"
"mul %2;"
"test %2, %2;"
"cmovns %3, %1;"
"sub %1, %%rdx"
: "=&A" (X), "+r" (Utmp) : "r" (S), "rm" (0UL));
编辑:可以在没有零输入的情况下完成:
int64_t Stmp = S;
asm ("mov %1, %%rax;"
"mul %2;"
"sar $63, %1;"
"and %2, %1;"
"sub %1, %%rdx"
: "=&A" (X), "+rm" (Stmp) : "r" (U));