我有以下c函数
int main_compare (int nbytes, char *pmem1, char *pmem2){
for(nbytes--; nbytes>=0; nbytes--) {
if(*(pmem1+nbytes) - *(pmem2+nbytes) != 0) {
return 0;
}
}
return 1;
}
我希望将其转换为ARM - Cortex M3 - 汇编代码。我对此并不擅长,而且我没有合适的编译器来测试我是否做得对。但到目前为止,我的目标已经到来了
byte_cmp_loop PROC
; assuming: r0 = nbytes, r1=pmem1, r2 = pmem2
SUB R0, R0, #1 ; nBytes - 1 as maximal value for loop counter
_for_loop:
ADD R3, R1, R0 ;
ADD R4, R2, R0 ; calculate pmem + n
LDRB R3, [R3] ;
LDRB R4, [R4] ; look at this address
CMP R3, R4 ; if cmp = 0, then jump over return
BE _next ; if statement by "branch"-cmd
MOV R0, #0 ; return value is zero
BX LR ; always return 0 here
_next:
sub R0, R0, #1 ; loop counting
BLPL _for_loop ; pl = if positive or zero
MOV R0, #1 ;
BX LR ; always return 1 here
ENDP
但我真的不确定,如果这是对的,但我不知道如何检查....
答案 0 :(得分:2)
我在那里看到了3个相当简单的问题:
BE _next ; if statement by "branch"-cmd
...
sub R0, R0, #1 ; loop counting
BLPL _for_loop ; pl = if positive or zero
BEQ
,而不是BE
- 条件代码总是2个字母。SUB
不会更新标志 - 您需要后缀来表示即SUBS
。BLPL
将进行分支和链接,从而覆盖您的返回地址 - 您需要BPL
。实际上,BLPL
无论如何都不会聚集在这里,因为在Thumb中,条件BL
需要IT
来设置它(除非您的汇编程序非常聪明,可以自动插入一个) 编辑:在原始代码和我的示例中使用R4
当然也有一个更普遍的问题 - 如果您与C代码接口,原始值必须在函数调用中保留并在之后恢复(R0
- R3
是指定的参数/临时寄存器,可以自由修改)。如果您使用的是纯粹的程序集,则不一定需要遵循标准的调用约定,因此可以更灵活。
现在,这是C代码的文字表示,并没有充分利用指令集 - 特别是索引寻址模式。汇编编程的一个吸引人之处就是可以完全控制指令,那么我们怎样才能让它值得我们这么做呢?
首先,让我们让C代码看起来更像我们想要的程序集:
int main_compare (int nbytes, char *pmem1, char *pmem2){
while(nbytes-- > 0) {
if(*pmem1++ != *pmem2++) {
return 0;
}
}
return 1;
}
现在,这更清楚地表明了我们的意图,让我们玩编译器:
byte_cmp_loop PROC
; assuming: r0 = nbytes, r1=pmem1, r2 = pmem2
_loop:
SUBS R0, R0, #1 ; Decrement nbytes and set flags based on the result
BMI _finished ; If nbytes is now negative, it was 0, so we're done
LDRB R3, [R1], #1 ; Load from the address in R1, then add 1 to R1
LDRB R4, [R2], #1 ; ditto for R2
CMP R3, R4 ; If they match...
BEQ _loop ; then continue round the loop
MOV R0, #0 ; else give up and return zero
BX LR
_finished:
MOV R0, #1 ; Success!
BX LR
ENDP
这几乎减少了25%的指令!现在,如果我们引入另一个指令集功能 - 条件执行 - 并略微放宽要求,而不破坏C语义,它会变得更小:
byte_cmp_loop PROC
; assuming: r0 = nbytes, r1=pmem1, r2 = pmem2
_loop:
SUBS R0, R0, #1 ; In C zero is false and any nonzero value is true, so
; when R0 becomes -1 to trigger this branch, we can just
; return that to indicate success
IT MI ; Make the following instruction conditional on 'minus'
BXMI LR
LDRB R3, [R1], #1
LDRB R4, [R2], #1
CMP R3, R4
BEQ _loop
MOVS R0, #0 ; Using MOVS rather than MOV to get a 16-bit encoding,
; since updating the flags won't matter at this point
BX LR
ENDP
组装到22个字节,这比我们开始的代码少了近40%:D
答案 1 :(得分:1)
好吧,这是一些编译器生成的代码
arm-none-eabi-gcc -O2 -mthumb -c test.c -o test.o
arm-none-eabi-objdump -D test.o
00000000 <main_compare>:
0: b510 push {r4, lr}
2: 3801 subs r0, #1
4: d502 bpl.n c <main_compare+0xc>
6: e007 b.n 18 <main_compare+0x18>
8: 3801 subs r0, #1
a: d305 bcc.n 18 <main_compare+0x18>
c: 5c0c ldrb r4, [r1, r0]
e: 5c13 ldrb r3, [r2, r0]
10: 429c cmp r4, r3
12: d0f9 beq.n 8 <main_compare+0x8>
14: 2000 movs r0, #0
16: e000 b.n 1a <main_compare+0x1a>
18: 2001 movs r0, #1
1a: bc10 pop {r4}
1c: bc02 pop {r1}
1e: 4708 bx r1
arm-none-eabi-gcc -O2 -mthumb -mcpu=cortex-m3 -c test.c -o test.o
arm-none-eabi-objdump -D test.o
00000000 <main_compare>:
0: 3801 subs r0, #1
2: b410 push {r4}
4: d503 bpl.n e <main_compare+0xe>
6: e00a b.n 1e <main_compare+0x1e>
8: f110 30ff adds.w r0, r0, #4294967295 ; 0xffffffff
c: d307 bcc.n 1e <main_compare+0x1e>
e: 5c0c ldrb r4, [r1, r0]
10: 5c13 ldrb r3, [r2, r0]
12: 429c cmp r4, r3
14: d0f8 beq.n 8 <main_compare+0x8>
16: 2000 movs r0, #0
18: f85d 4b04 ldr.w r4, [sp], #4
1c: 4770 bx lr
1e: 2001 movs r0, #1
20: f85d 4b04 ldr.w r4, [sp], #4
24: 4770 bx lr
26: bf00 nop
有趣的是,thumb2扩展似乎并没有真正使这更好,可能更糟。
如果你没有编译器,那意味着你没有汇编程序和链接器吗?我没有汇编器和链接器,它将需要大量的工作来编译和组装到机器代码。那你怎么把它加载到处理器等等?
如果你没有arm的交叉编译器,你有一个编译器吗?您需要告诉我们更多关于您做什么和没有做什么的信息。如果您有一个用于查找stackoverflow和发布问题的Web浏览器,您可以下载代码源代码工具或https://launchpad.net/gcc-arm-embedded工具,并拥有编译器,汇编器和链接器(并且不必手动将c转换为asm)
就你的代码而言,减去1对于nbytes--是正确的,但是你没能将该nbytes值与零进行比较,看看你是否根本不需要做任何事情。
伪代码中的
if nbytes >= 0 return 1
nbytes--;
add pmem1+nbytes
load [pmem1+nbytes]
add pmem2+nbytes
load [pmem2+nbytes]
subtract
compare with zero
and so on
你直接去了nbytes--没有做if nbytes&gt; = 0;比较。
如果相等,则分支的程序集是BEQ而不是BE而BPL而不是BLPL。所以解决这些问题,一开始就做一个无条件的分支到_next,我认为你已经编码了。
byte_cmp_loop PROC
; assuming: r0 = nbytes, r1=pmem1, r2 = pmem2
B _next
_for_loop:
ADD R3, R1, R0 ;
ADD R4, R2, R0 ; calculate pmem + n
LDRB R3, [R3] ;
LDRB R4, [R4] ; look at this address
CMP R3, R4 ; if cmp = 0, then jump over return
BEQ _next ; if statement by "branch"-cmd
MOV R0, #0 ; return value is zero
BX LR ; always return 0 here
_next:
sub R0, R0, #1 ; loop counting
BPL _for_loop ; pl = if positive or zero
MOV R0, #1 ;
BX LR ; always return 1 here
ENDP