Question

此代码（arm）：

void blinkRed(void)
{
    for(;;)
    {
        bb[0x0008646B] ^= 1;
        sys.Delay_ms(14);
    }
}

...编译为asm-code：

08000470:   ldr r4, [pc, #20]       ; (0x8000488 <blinkRed()+24>) // r4 = 0x422191ac
08000472:   ldr r6, [pc, #24]       ; (0x800048c <blinkRed()+28>)
08000474:   movs r5, #14
08000476:   ldr r3, [r4, #0]
08000478:   eor.w r3, r3, #1
0800047c:   str r3, [r4, #0]
0800047e:   mov r0, r6
08000480:   mov r1, r5
08000482:   bl 0x80001ac <CSTM32F100C6::Delay_ms(unsigned int)>
08000486:   b.n 0x8000476 <blinkRed()+6>

没关系。

但是，如果我只是更改数组索引（-0x400）....

void blinkRed(void)
{
    for(;;)
    {
        bb[0x0008606B] ^= 1;
        sys.Delay_ms(14);
    }
}

......我没有那么优化的代码：

08000470:   ldr r4, [pc, #24]       ; (0x800048c <blinkRed()+28>) // r4 = 0x42218000
08000472:   ldr r6, [pc, #28]       ; (0x8000490 <blinkRed()+32>)
08000474:   movs r5, #14
08000476:   ldr.w r3, [r4, #428]    ; 0x1ac
0800047a:   eor.w r3, r3, #1
0800047e:   str.w r3, [r4, #428]    ; 0x1ac
08000482:   mov r0, r6
08000484:   mov r1, r5
08000486:   bl 0x80001ac <CSTM32F100C6::Delay_ms(unsigned int)>
0800048a:   b.n 0x8000476 <blinkRed()+6>

不同之处在于，在第一种情况下，r4立即加载了目标地址（0x422191ac），然后使用2字节指令执行对内存的访问，但在第二种情况下{{1加载了一些中间件地址（r4）然后使用4字节指令执行访问内存，偏移量（0x42218000）到目标地址（+0x1ac）。

为什么编译器会这样做？

我用： 0x422181ac

arm-none-eabi-g++ -mcpu=cortex-m3 -mthumb -g2 -Wall -O1 -std=gnu++14 -fno-exceptions -fno-use-cxa-atexit -fstrict-volatile-bitfields -c -DSTM32F100C6T6B -DSTM32F10X_LD_VL是：

bb

在__attribute__ ((section(".bitband"))) volatile u32 bb[0x00800000];中，它被定义为：在.ld部分：

MEMORY

BITBAND(rwx): ORIGIN = 0x42000000, LENGTH = 0x02000000

部分中的

：

SECTIONS

Answer 1

我认为这是-O1的假象/缺失优化机会。

如果我们查看使用-O-生成的代码来加载bb[...]，可以更详细地理解：

第一种情况：

movw    r2, #:lower16:bb
movt    r2, #:upper16:bb
movw    r3, #37292
movt    r3, 33
adds    r3, r2, r3
ldr r3, [r3, #0]

第二种情况：

movw    r3, #:lower16:bb
movt    r3, #:upper16:bb
add r3, r3, #2195456       ; 0x218000    = 4*0x86000
add r3, r3, #428
ldr r3, [r3, #0]

第二种情况下的代码更好，可以这样做，因为常量可以添加两条添加指令（如果索引是0x0008646B则不是这种情况）。

-O1只进行非耗时的优化。所以很明显它早期合并了add和ldr所以以后错过了用一个pc相对ldr加载整个地址的机会。

使用-O2（或-fgcse）进行编译，代码看起来像预期的那样。

GCC根据数组索引值生成不同的代码

1 个答案: