Question

我在Visual Studio中用汇编（masm）编写了2个函数，我在C ++项目中使用它。它们是无符号64位乘法函数，产生128位结果，无符号128位除法函数产生128位商数并返回32位余数。

我需要的是功能的签名版本，但我不知道该怎么做。

下面是带有Unsigned函数的.asm文件的代码：

.MODEL flat, stdcall
.CODE

MUL64 PROC, A:QWORD, B:QWORD, pu128:DWORD
push EAX
push EDX
push EBX
push ECX
push EDI
mov EDI,pu128
; LO(A) * LO(B)
mov EAX,DWORD PTR A
mov EDX,DWORD PTR B
MUL EDX
mov [EDI],EAX ; Save the partial product.
mov ECX,EDX
; LO(A) * HI(B)
mov EAX,DWORD PTR A
mov EDX,DWORD PTR B+4
MUL EDX
ADD EAX,ECX
ADC EDX,0
mov EBX,EAX
mov ECX,EDX
; HI(A) * LO(B)
mov EAX,DWORD PTR A+4
mov EDX,DWORD PTR B
MUL EDX
ADD EAX,EBX
ADC ECX,EDX
PUSHFD ; Save carry.
mov [EDI+4],EAX ; Save the partial product.
; HI(A) * HI(B)
mov EAX,DWORD PTR A+4
mov EDX,DWORD PTR B+4
MUL EDX
POPFD ; Retrieve carry from above.
ADC EAX,ECX
ADC EDX,0
mov [EDI+8],EAX ; Save the partial product.
mov [EDI+12],EDX ; Save the partial product.
pop EDI
pop ECX
pop EBX
pop EDX
pop EAX
ret 20
MUL64 ENDP

IMUL64 PROC, A:SQWORD, B:SQWORD, pi128:DWORD
; How to make this work?
ret 20
IMUL64 ENDP

DIV128 PROC, pDividend128:DWORD, Divisor:DWORD, pQuotient128:DWORD
push EDX
push EBX
push ESI
push EDI
MOV ESI,pDividend128
MOV EDI,pQuotient128
MOV EBX,Divisor
XOR EDX,EDX
MOV EAX,[ESI+12]
DIV EBX
MOV [EDI+12],EAX
MOV EAX,[ESI+8]
DIV EBX
MOV [EDI+8],EAX
MOV EAX,[ESI+4]
DIV EBX
MOV [EDI+4],EAX
MOV EAX,[ESI]
DIV EBX
MOV [EDI],EAX
MOV EAX,EDX
pop EDI
pop ESI
pop EBX
pop EDX
ret 12
DIV128 ENDP

IDIV128 PROC, pDividend128:DWORD, Divisor:DWORD, pQuotient128:DWORD
; How to make this work?
ret 12
IDIV128 ENDP

END

如果您发现这有用，请通过帮助编写功能的签名版本来帮助项目。

Answer 1

首先，MUL64功能不起作用100％

如果你尝试做0xFFFFFFFFFFFFFFFF x 0xFFFFFFFFFFFFFFFF，Hi 64位结果是0xFFFFFFFeFFFFFFFF，它应该是0xFFFFFFFFFFFFFFFe

要解决此问题，应将POPFD指令后的进位标志添加到EDX中，这是结果的最高32位部分。现在按照Peter Cordes的建议，删除EAX / ECX / EDX的推送和弹出。最后使用setc BL和movzx EBX,BL来保存标记。注意：您无法轻松使用xor EBX,EBX将其归零，因为xor会影响标记。我们使用movzx，因为根据Skylake规范，它比add BL,0xFF和add快于adc。

结果：

MUL64 PROC, A:QWORD, B:QWORD, pu128:DWORD
push EBX
push EDI
mov EDI,pu128
; LO(A) * LO(B)
mov EAX,DWORD PTR A
mov EDX,DWORD PTR B
mul EDX
mov [EDI],EAX ; Save the partial product.
mov ECX,EDX
; LO(A) * HI(B)
mov EAX,DWORD PTR A
mov EDX,DWORD PTR B+4
mul EDX
add EAX,ECX
adc EDX,0
mov EBX,EAX
mov ECX,EDX
; HI(A) * LO(B)
mov EAX,DWORD PTR A+4
mov EDX,DWORD PTR B
mul EDX
add EAX,EBX
adc ECX,EDX
setc BL ; Save carry.
movzx EBX,BL ; Zero-Extend carry.
mov [EDI+4],EAX ; Save the partial product.
; HI(A) * HI(B)
mov EAX,DWORD PTR A+4
mov EDX,DWORD PTR B+4
mul EDX
add EDX,EBX ; Add carry from above.
add EAX,ECX
adc EDX,0
mov [EDI+8],EAX ; Save the partial product.
mov [EDI+12],EDX ; Save the partial product.
pop EDI
pop EBX
ret 20
MUL64 ENDP

现在，要使函数的签名版本使用此公式：

my128.Hi -= (((A < 0) ? B : 0) + ((B < 0) ? A : 0));

结果：

IMUL64 PROC, A:SQWORD, B:SQWORD, pi128:DWORD
push EBX
push EDI
mov EDI,pi128
; LO(A) * LO(B)
mov EAX,DWORD PTR A
mov EDX,DWORD PTR B
mul EDX
mov [EDI],EAX ; Save the partial product.
mov ECX,EDX
; LO(A) * HI(B)
mov EAX,DWORD PTR A
mov EDX,DWORD PTR B+4
mul EDX
add EAX,ECX
adc EDX,0
mov EBX,EAX
mov ECX,EDX
; HI(A) * LO(B)
mov EAX,DWORD PTR A+4
mov EDX,DWORD PTR B
mul EDX
add EAX,EBX
adc ECX,EDX
setc BL ; Save carry.
movzx EBX,BL ; Zero-Extend carry.
mov [EDI+4],EAX ; Save the partial product.
; HI(A) * HI(B)
mov EAX,DWORD PTR A+4
mov EDX,DWORD PTR B+4
mul EDX
add EDX,EBX ; Add carry from above.
add EAX,ECX
adc EDX,0
mov [EDI+8],EAX ; Save the partial product.
mov [EDI+12],EDX ; Save the partial product.
; Signed version only:
cmp DWORD PTR A+4,0
jg zero_b
jl use_b
cmp DWORD PTR A,0
jae zero_b
use_b:
mov ECX,DWORD PTR B
mov EBX,DWORD PTR B+4
jmp test_b
zero_b:
xor ECX,ECX
mov EBX,ECX
test_b:
cmp DWORD PTR B+4,0
jg zero_a
jl use_a
cmp DWORD PTR B,0
jae zero_a
use_a:
mov EAX,DWORD PTR A
mov EDX,DWORD PTR A+4
jmp do_last_op
zero_a:
xor EAX,EAX
mov EDX,EAX
do_last_op:
add EAX,ECX
adc EDX,EBX
sub [EDI+8],EAX
sbb [EDI+12],EDX
; End of signed version!
pop EDI
pop EBX
ret 20
IMUL64 ENDP

DIV128函数应该很好（也可能是最快的）从32位除数中获得128位商，但是如果你需要使用128位除数，那么请查看这段代码https://www.codeproject.com/Tips/785014/UInt-Division-Modulus其中有一个使用二进制移位算法进行128位除法的例子。如果用汇编语言编写它可能会快3倍。

要制作DIV128的签名版本，首先要确定除数和被除数的符号是相同还是不同。如果它们是相同的，那么结果应该是积极的。如果它们不同，则结果应为负数。所以...如果它们是负数，则使红利和除数成为正数，然后调用DIV128，之后如果符号不同则否定结果。

这是一些用C ++编写的示例代码

VOID IDIV128(PSDQWORD Dividend, PSDQWORD Divisor, PSDQWORD Quotient, PSDQWORD Remainder)
{
    BOOL Negate;
    DQWORD DD, DV;

    Negate = TRUE;

    // Use local DD and DV so Dividend and Divisor dont get currupted.
    DD.Lo = Dividend->Lo;
    DD.Hi = Dividend->Hi;
    DV.Lo = Divisor->Lo;
    DV.Hi = Divisor->Hi;

    // if the signs are the same then: Negate = FALSE;
    if ((DD.Hi & 0x8000000000000000) == (DV.Hi & 0x8000000000000000)) Negate = FALSE;

    // Covert Dividend and Divisor to possitive if negative: (negate)
    if (DD.Hi & 0x8000000000000000) NEG128((PSDQWORD)&DD);
    if (DV.Hi & 0x8000000000000000) NEG128((PSDQWORD)&DV);

    DIV128(&DD, &DV, (PDQWORD)Quotient, (PDQWORD)Remainder);

    if (Negate == TRUE)
    {
        NEG128(Quotient);
        NEG128(Remainder);
    }
}

修改

根据Peter Cordes的建议，我们可以进一步优化MUL64 / IMUL64。查看有关正在进行的具体更改的注释。我还将MUL64 PROC, A:QWORD, B:QWORD, pu128:DWORD替换为MUL64@20:和IMUL64@20:，以消除masm添加的不必要的EBP使用。我还优化了IMUL64的标志修复工作。

MUL64 / IMUL64的当前.asm文件

.MODEL flat, stdcall EXTERNDEF MUL64@20 :PROC EXTERNDEF IMUL64@20 :PROC .CODE MUL64@20: push EBX push EDI ; ----------------- ; | pu128 | ; |---------------| ; | B | ; |---------------| ; | A | ; |---------------| ; | ret address | ; |---------------| ; | EBX | ; |---------------| ; ESP---->| EDI | ; ----------------- A TEXTEQU <[ESP+12]> B TEXTEQU <[ESP+20]> pu128 TEXTEQU <[ESP+28]> mov EDI,pu128 ; LO(A) * LO(B) mov EAX,DWORD PTR A mul DWORD PTR B mov [EDI],EAX ; Save the partial product. mov ECX,EDX ; LO(A) * HI(B) mov EAX,DWORD PTR A mul DWORD PTR B+4 add EAX,ECX adc EDX,0 mov EBX,EAX mov ECX,EDX ; HI(A) * LO(B) mov EAX,DWORD PTR A+4 mul DWORD PTR B add EAX,EBX adc ECX,EDX setc BL ; Save carry. mov [EDI+4],EAX ; Save the partial product. ; HI(A) * HI(B) mov EAX,DWORD PTR A+4 mul DWORD PTR B+4 add EAX,ECX movzx ECX,BL ; Zero-Extend saved carry from above. adc EDX,ECX mov [EDI+8],EAX ; Save the partial product. mov [EDI+12],EDX ; Save the partial product. pop EDI pop EBX ret 20 IMUL64@20: push EBX push EDI ; ----------------- ; | pi128 | ; |---------------| ; | B | ; |---------------| ; | A | ; |---------------| ; | ret address | ; |---------------| ; | EBX | ; |---------------| ; ESP---->| EDI | ; ----------------- A TEXTEQU <[ESP+12]> B TEXTEQU <[ESP+20]> pi128 TEXTEQU <[ESP+28]> mov EDI,pi128 ; LO(A) * LO(B) mov EAX,DWORD PTR A mul DWORD PTR B mov [EDI],EAX ; Save the partial product. mov ECX,EDX ; LO(A) * HI(B) mov EAX,DWORD PTR A mul DWORD PTR B+4 add EAX,ECX adc EDX,0 mov EBX,EAX mov ECX,EDX ; HI(A) * LO(B) mov EAX,DWORD PTR A+4 mul DWORD PTR B add EAX,EBX adc ECX,EDX setc BL ; Save carry. mov [EDI+4],EAX ; Save the partial product. ; HI(A) * HI(B) mov EAX,DWORD PTR A+4 mul DWORD PTR B+4 add EAX,ECX movzx ECX,BL ; Zero-Extend saved carry from above. adc EDX,ECX mov [EDI+8],EAX ; Save the partial product. mov [EDI+12],EDX ; Save the partial product. ; Signed version only: mov BL,BYTE PTR B+7 and BL,80H jz zero_a mov EAX,DWORD PTR A mov EDX,DWORD PTR A+4 jmp test_a zero_a: xor EAX,EAX mov EDX,EAX test_a: mov BL,BYTE PTR A+7 and BL,80H jz do_last_op add EAX,DWORD PTR B adc EDX,DWORD PTR B+4 do_last_op: sub [EDI+8],EAX sbb [EDI+12],EDX ; End of signed version! pop EDI pop EBX ret 20 END

在汇编时在x86上签名64位乘法和128位除法

1 个答案: